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前 言 ， 


F OREWOR D A 


随 着 社会 的 进步 和 计算 机 技术 的 发 展 , 人 类 社会 产生 的 数据 正 呈 爆炸 式 增 
长 。 数 据 是 人 类 社会 重要 的 战略 资源 ,大 数据 是 “未 来 的 新 石油 ”, 大 数据 对 未 来 
的 科技 与 经 济 发 展 将 带 来 重大 影响 ,一 个 国家 拥有 数据 的 规模 和 运用 数据 的 能 力 
将 成 为 综合 国力 的 重要 组 成 部 分 ,对 数据 的 占有 和 控制 也 将 成 为 国家 和 企业 间 争 
夺 的 焦点 。 大 数据 如 此 重要 ,但 大 数据 人 才 却 十 分 短缺 , 据 预测 ,到 2018 年 美国 大 
数据 分 析 人 才 缺 口 是 19 万 人 ,中 国 作 为 全 球 第 二 大 经 济 体 ,拥有 的 数据 占 全 球 总 
量 的 13% ,增长 速度 保持 在 50% 左 右 ,明显 高 于 全 球 的 增长 速度 。 如 此 巨大 的 市 
场 , 大 数据 处 理 的 技术 人 才 必 将 成 为 炙手可热 的 人 才 , 未 来 几 年 内 我 国 将 需要 十 
几 万 的 大 数据 人 才 。 

大 数据 处 理 大 体 上 分 为 : 批 处 理 系统 、 流 式 处 理 系统 、 交 互 式 数据 处 理 系统 、 
图 数据 处 理 系统 。Hadoop 是 目前 应 用 最 成 功 也 是 最 广 的 批 处 理 平台 ,国内 外 的 
企业 和 机 构 的 数据 处 理 系 统 纷纷 向 Hadoop 处 理 平台 过 渡 和 转型 ,Hadoop 已 经 成 
为 大 数据 处 理 的 工业 标准 。 而 其 他 的 处 理 模 式 尚未 形成 完整 的 生态 系统 。 
国内 与 Hadoop 相关 的 技术 书籍 明显 存在 以 下 不 足 。@D 版 本 较 老 。 在 编者 研 
究 大 数据 技术 时 ,书籍 较 少 且 相 当 多 书籍 版 本 为 0. 20 版 的 Hadoop, 虽 然 能 够 清 
晰 地 讲述 Hadoop 原理 与 技术 ,但 已 经 不 能 适应 时 代 发 展 的 要 求 。 回 内 容 较 单一 。 
有 不 少 书籍 是 对 Hadoop 官方 技术 文档 的 翻译 或 者 是 资料 的 整理 , 较 少 涉及 较 深 
层次 的 Hadoop 应 用 ,如 架构 设计 、 领 域 应 用 等 。 编 者 在 参考 了 大 量 文献 的 基础 
上 ,并 结合 在 专业 领域 的 应 用 编写 了 本 书 。 本 书 图 文 并 茂 ,深入浅出 ,用 浅显 的 语 
言 讲 解 Hadoop 原理 的 同时 ,结合 具体 的 应 用 代码 以 加 深 读 者 对 Hadoop 技术 的 
理解 。 最 后 ,通过 案例 ,让 读者 理解 应 用 系统 的 体系 架构 ,以 及 Hadoop 在 整个 系 
统 中 的 位 置 与 作用 。 

本 书 适 用 于 以 下 对 象 。 

。 对 大 数据 感 兴趣 的 读者 。 

。 想 了 解 Hadoop 的 初学 者 。 

。 大 数据 处 理 的 从 业 人 员 。 

。 HBase、Hive 的 爱好 者 。 

。 开设 Hadoop 相关 课程 的 大 专 院 校 。 

学 习 本 书 的 前 提 条 件 是 : DRA ZH Java 编程 基础 ; @@ 具 有 数据 库 相 关 的 
基础 知识 ; QARA Linux 相关 的 基础 知识 。 


本 书 在 编排 上 ,加 入 了 一 些 注意 事项 和 提示 ,提醒 读者 注意 一 些 容 易 被 忽视 的 细节 。 本 
书 还 涉及 大 量 的 Linux 或 Hadoop 命令 ,为 了 阅读 方便 ,这 些 需 要 读者 自己 输入 的 命令 均 采 
用 加 粗 字体 ;机 器 的 输出 信息 采用 小 字体 编排 。 

本 书 共 分 为 9 章 , 体 系 结构 如 下 。 

第 1 章 为 大 数据 概述 。 主 要 讲述 了 大 数据 的 概念 与 特点 、 研 究 背 景 、 应 用 示例 、 研 究 的 
意义 、 相 关 的 关键 技术 、 处 理 模式 、 代 表 性 系统 的 发 展 前 景 。 

第 2 章 为 Hadoop 简介 。 本 章 重点 介绍 了 Hadoop 的 起 源 、 由 来 .相关 项 目的 介绍 以 及 
版 本 的 衍化 。 

第 3 章 为 Hadoop 的 安装 。 介 绍 了 Ubuntu Server、JDK 的 安装 ;SSH 公 钥 认证 的 原 
理 、 安 装配 置 以 及 SecureCRT 公 钥 登录 ;Hadoop 的 三 种 安装 模式 ;Hadoop 2.2 的 安装 。 

第 4 章 为 HDFS 文件 系统 。 介 绍 了 互联 网 时 代 对 存储 系统 的 新 要 求 ;HDFS 系统 的 特 
点 ;HDFS 文件 系统 的 组 成 ;HDFS 的 两 种 操作 方式 : Shell 方式 和 API 方 式 ;HDFS 的 高 可 
用 性 以 及 小 文件 存储 问题 。 

第 5 Æ X MapReduce 原理 及 开发 。 介 绍 了 MapReduce 模型 下 编程 的 示例 ; 
MapReduce 的 工作 原理 ;Shuffle 原理 ;Shuffle 过 程 的 优化 ;故障 的 处 理 方法 作业 的 调度 方 
式 ; 五 类 典型 的 MapReduce 应 用 。 

第 6 章 为 HBase 数据 库 。 介 绍 HBase 数据 库 的 特点 架构 .原理 ;HBase 的 安装 方法 ; 
HBase 的 Shell 和 API 操作 方法 ;MapReduce 操作 HBase 的 方法 ;HBase 的 优化 方法 。 

第 7 章 为 Hive 数据 仓库 。 介 绍 了 Hive 的 架构 、 安 装 方法 .HQL 的 使 用 ,并 介绍 了 复 
杂 类 型 以 及 Hive 函数 。 

第 8 章 为 数据 整合 。 介 绍 了 使 用 Sqoop 把 关系 型 数据 库 表 整合 到 Hadoop 的 HDFS、 
HBase, Hive 中 的 方法 。 

第 9 章 为 典型 应 用 案例 介绍 。 介绍 了 Hadoop 在 智能 交通 中 的 应 用 及 在 情报 分 析 中 的 
应 用 。 

本 书 在 编写 的 过 程 中 ,得 到 了 同事 们 的 鼓励 和 支持 ,也 得 到 妻子 和 女儿 的 关心 和 照顾 。 
同时 还 要 感谢 清华 大 学 出 版 社 的 编辑 ,他 们 在 书稿 的 编辑 出 版 过 程 中 做 了 大 量 的 工作 ,感谢 
他 们 对 我 的 支持 和 鼓励 。 

由 于 Hadoop 的 发 展 非常 迅速 ,加 之 本 人 的 水 平 有 限 , 书 中 难免 会 有 错误 和 遗漏 之 处 ， 
恳请 谅解 和 批评 指正 ,欢迎 提出 宝贵 的 意见 和 建议 。 编 者 的 电子 邮箱 为 dlzenggang (9 
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e 大 数据 概述 


1.1 大 数据 简介 


1946 年 ,世界 上 第 一 台 计 算 机 ENIAC 诞生 ,标志 着 人 类 社会 进入 信息 时 代 。 随 着 计算 
机 技术 全 面 融 入 社会 生活 ,社会 的 各 个 领域 产生 了 大 量 的 信息 ,并 且 开 始 爆 炸 式 增长 。 

随 着 互联 网 的 普及 ,为 了 满足 人 们 搜索 网 络 信息 的 需求 ,搜索 引擎 抓 取 并 存储 了 巨大 的 
信息 ;社交 网 络 把 分 散 于 各 处 的 人 们 联系 起 来 ;电子 商务 在 满足 人 们 便捷 购物 的 同时 ,收集 
了 大 量 的 购物 意愿 与 购物 习惯 的 数据 ;2007 年 推 特 (Twitter) 开 始 独立 运营 ,标志 着 移动 互 
联网 时 代 的 到 来 。2010 年 是 中 国 的 微 博 元 年 ,2011 年 微 信 (WeChat) 开 始 运营 ,这 些 移动 应 
用 的 运行 也 产生 了 海量 的 数据 。 随 着 平安 工程 的 开展 ,各 地 纷纷 开始 安装 使 用 视频 监控 系 
统 , 产 生 了 海量 的 视频 数据 ;银行 、 股 市 ,保险 等 金融 部 门 在 运营 中 产生 了 大 量 非常 重要 的 交 
易 数据 ;安装 有 各 种 传感器 的 物 联网 中 有 巨大 的 数据 流 在 运转 ;电信 部 门 通过 通话 、 短 信 等 
多 种 业务 也 在 快速 地 产生 着 大 量 数据 。 

下 面 看 几 个 具体 的 例子 。 

谷歌 (Google) 通 过 网 络 息 虫 搜集 的 网 络 数据 以 及 其 他 应 用 处 理 的 数据 量 每 个 月 达 
400PB 以 上 ;百度 每 天 处 理 的 数据 量 达 几 十 PB; 脸 谱 (Facebook) 全 球 注册 用 户 达 10 亿 多 
人 ,每 个 月 上 传 的 照片 达 10 亿 张 ,每 天 产生 约 300TB 的 日 志 数据 ;淘宝 拥有 会 员 3.7 亿 , 在 
线 商品 8. 8 亿 , 每 天 交易 量 达 数 千 万 笔 ,产生 约 300TB 的 数据 ; 劳 斯 莱 斯 公司 对 全 世界 数 以 
万 计 的 飞机 发 动机 进行 实时 监控 ,每 年 传送 的 数据 量 达 PB 级 以 上 。 

为 了 更 精确 地 度量 数据 ,看 一 下 度量 单位 的 关系 。 

1Byte=8Bit 

1KB=1 024Bytes 

1MB=1 024KB=1 048 576Bytes 

1GB—1 024MB=1 048 576KB=1 073 741 824Bytes 

1TB=1 024GB—1 048 576MB— 1 099 511 627 776Bytes 

1PB—1 024TB=1 048 576GB=1 125 899 906 842 624Bytes 

1EB=1 024PB— 1 048 576 TB—1 152 921 504 606 846 976Bytes 

1ZB=1 024EB=1 180 591 620 717 411 303 424Bytes 

1YB=1 024ZB—1 208 925 819 614 629 174 706 176Bytes 

可 以 看 出 ,上 面 的 度量 单位 比 常见 的 度量 单位 多 了 PB、EB、ZB、YB。 以 上 单位 都 是 抽 
象 的 ,下 面 来 看 一 个 形象 的 例子 。 
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《红楼 梦 ) 含 标点 87 万 字 ( 不 含 标点 853 509 字 ) ,每 个 汉字 占 两 个 字 节 : 100 —16bit— 
2Bytes,1GB 约 等 于 671 部 红楼 梦 ,1TB 约 等 于 631 903 部 ,1PB 约 等 于 647 068 911 部 。 

美国 国会 图 书馆 藏书 151 785 778 册 (2011 年 4 月 : 收录 数据 235TB) 。 

中 国 国家 图 书馆 拥有 图 书 2 631 万 册 。 

1EB=4 000 倍 美国 国会 图 书馆 存储 的 信息 量 。 

通过 这 个 形象 的 例子 ,就 可 以 知道 “大 数据 ?这 个 概念 中 的 “大 ” 字 有 多 大 了 。 根 据 IDC 
(Internet Data Center, 互 联网 数据 中 心 ) 的 统计 ,2012 年 全 球 产 生 的 数据 量 达 2.7ZB, 相 比 
2011 年 的 1.8ZB 增 长 了 4826 ,这 种 增长 速度 还 在 加 快 ,预计 2020 年 ,产生 数据 的 总 量 将 达 
到 35. 2ZB, 如 图 1-1 所 示 。 
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图 1-1 IDC 统计 的 全 球 数据 量 预测 


11.1 大 数据 的 概念 与 特点 


那么 ,究竟 什么 是 大 数据 呢 ? 对 这 个 概念 的 解释 可 谓 仁 者 见 仁 , 智 者 见 智 ,目前 还 没有 
一 个 统一 的 ,大 家 都 认可 的 定义 。 不 管 如 何 定 义 , 大 数据 的 五 大 基本 特点 是 大 家 都 认可 的 ， 
如 图 1-2 ras. 


Veracity 
Variety 


Velocity 
图 1-2 大 数据 的 5V 特点 


1. Volume( 体 量 浩大 ) 

社会 生活 中 产生 的 数据 的 体 量 在 不 断 地 扩大 ,数据 集合 的 规模 已 经 从 MB、GB、TB 到 
了 PB, 在 数据 中 心 的 数据 量 甚 至 以 EB 和 ZB 等 单位 来 度量 。IDC 的 研究 报告 称 ,未 来 十 
年 ,全 球 大 数据 将 增加 50 倍 ,管理 数据 仓库 的 服务 器 的 数量 将 增加 10 倍 以 迎合 50 倍 的 大 
数据 增长 。 如 此 巨大 的 数据 量 , 带 来 的 是 巨大 的 计算 量 。 

2 Variety( 类 型 多 样 ) 

从 数据 的 组 织 形式 来 看 ,数据 包括 结构 化 数据 、 半 结构 化 数据 、 非 结构 化 数据 。 结 构 化 
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数据 是 以 二 维 表 的 形式 来 组 织 数据 ,例如 关系 型 数据 库 , 数 据 存储 于 二 维 数据 表 中 ,数据 的 
类 型 格式 严格 一 致 , 表 与 表 之 间 通 过 参照 关系 建立 联系 。 非 结构 化 数据 是 指 无 法 通过 预先 
定义 的 数据 模型 表述 的 数据 ,包括 视频 、 音 频 、 图 片 . 文 档 、 文 本 等 形式 。 半 结构 化 数据 是 介 
于 完全 结构 化 数据 (如 关系 型 数据 库 、 面 向 对 象 数据 库 中 的 数据 ) 和 非 结 构 化 数据 (如 声音 、 
图 像 文件 等 ) 之 间 的 数据 ,HTML 文档 就 属于 半 结 构 化 数据 。 它 一 般 是 自 描述 的 ,数据 的 结 
构 和 内 容 混 在 一 起 ,没有 明显 的 区 分 。 根 据 IDC 的 统计 ,目前 80% 的 数据 为 非 结构 化 和 半 
结构 化 数据 ,结构 化 数据 仅 占 总 量 的 2026. 


3. Velocity( 生 成 快速 ) 

随 着 移动 计算 .社交 媒体 和 物 联网 等 新 技术 的 不 断 出 现 和 应 用 , 非 结构 化 数据 正在 以 
63% 的 速度 飞速 增长 着 ,而 结构 化 数据 仅 以 32% 的 速度 增长 。 网 络 中 的 数据 往往 呈现 出 突 
发 涌现 等 非 线性 状态 演变 现象 ,因此 难以 对 其 变化 进行 有 效 评估 和 预测 。 另 一 方面 ,网 络 中 
的 数据 常常 以 数据 流 的 形式 动态 快速 地 产生 ,具有 很 强 的 时 效 性 ,用 户 只 有 有 效 地 掌控 数据 
流 才能 充分 利用 这 些 数 据 。 


4 Veracity 真实 性 高 ) 
随 着 社交 数据 .企业 内 容 、 交 易 与 应 用 数据 等 新 数据 源 的 兴起 ,传统 数据 源 的 局 限 被 打 
破 , 企 业 越发 需要 有 效 的 信息 之 力 以 确保 其 真实 性 及 安全 性 。 


5. Value( 价 值 巨 大 但 密度 很 低 ) 

Value 是 大 数据 的 精 茵 ,一 方面 企业 能 够 利用 大 数据 技术 让 运算 变 得 更 快 , 另 一 方面 大 
数据 衍生 了 很 多 新 的 商业 模式 。 以 保险 行业 为 例 , 车 险 公 司 在 车 内 安装 传感器 ,用 以 监测 司 
机 的 驾驶 习惯 ,根据 不 同 的 驾驶 行为 区 分 司机 的 安全 系数 ,分 别 拟定 相应 的 保费 标准 。 信 用 
卡 公司 也 会 通过 对 顾客 消费 行为 .购买 模式 的 分 析 , 制 定 精准 的 个 性 化 营销 模式 。 

虽然 数据 的 价值 巨大 ,但 是 基于 传统 思维 与 技术 ,人 们 在 实际 环境 中 往往 面临 信息 泛滥 
而 知识 匮乏 的 窘 态 , 即 大 数据 的 价值 利用 密度 低 。 因 此 ,要 从 密度 较 低 的 大 数据 中 找到 有 价 
值 的 信息 ,必须 使 用 某 种 特定 的 策略 与 方法 进行 数据 的 挖掘 与 分 析 。 

从 上 面 的 五 个 特点 不 难看 出 ,大 数据 从 本 质 上 来 讲 包含 数量 、 类 型 速度 三 个 维度 的 问题 ， 
想 要 把 三 个 维度 从 根本 上 区 分 开 是 不 可 能 的 ,因为 大 数据 概念 的 提出 是 源 于 技术 的 发 展 。 

对 大 数据 的 认识 ,除了 如 图 1-2 所 示 五 个 基本 特点 外 ,社会 各 界 都 试图 从 其 他 方面 对 大 
数据 进行 解释 和 定义 。 亚 马 逊 网 络 服务 (AWS) 的 大 数据 科学 家 JohnRauser 提出 一 个 简单 
的 定义 : 大 数据 就 是 任何 超过 了 一 台 计 算 机 处 理 能 力 的 庞大 数据 量 。AWS 研发 小 组 对 大 
数据 的 定义 : 大 数据 是 最 大 的 宣传 技术 和 最 时 化 的 技术 , 当 这 种 现象 出 现时 ,定义 就 变 得 很 
混乱 。Kelly 说 :“ 大 数据 是 可 能 不 包含 所 有 的 信息 ,但 我 觉得 大 部 分 是 正确 的 。 对 大 数据 
的 一 部 分 认 知 在 于 , 它 是 如 此 之 大 ,分 析 它 需要 多 个 工作 负载 , 当 你 的 技术 达到 极限 时 ,也 就 
是 数据 的 极限 。” 

从 数据 的 类 别 上 看 ,大 数据 指 的 是 无 法 使 用 传统 流程 或 工具 进行 处 理 或 分 析 的 信息 。 
它 定 义 了 那些 超出 正常 处 理 范围 和 大 小 、 迫 使 用 户 采 用 非 传 统 处 理 方法 的 数据 集 ,这 是 研究 
机 构 Gartner 的 观点 ,他 们 认为 “大 数据 ”是 需要 新 处 理 模 式 才 能 具有 更 强 的 决策 力 ,洞察 发 
现 力 和 流程 优化 能 力 的 海量 、 高 增长 率 和 多 样 化 的 信息 资产 。 

互联 网 周刊 也 给 出 了 他 们 的 理解 : 大 数据 的 概念 并 不 只 是 大 量 的 数据 (TB) 和 处 理 大 
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量 数据 的 技术 ,或 者 所 谓 的 “五 个 V? 之 类 的 简单 概念 ,而 是 涵盖 了 人 们 在 大 规模 数据 的 基础 
上 可 以 做 的 事情 ,并 且 这 些 事情 在 小 规模 数据 的 基础 上 是 无 法 实现 的 。 换 句 话 说 ,大 数据 让 
人 们 以 一 种 前 所 未 有 的 方式 ,通过 对 海量 数据 进行 分 析 , 获 得 有 巨大 价值 的 产品 和 服务 ,或 
深刻 的 洞 见 ,最 终 形成 变革 之 力 。 

李 国 杰 等 人 对 大 数据 的 理解 与 定义 是 : 大 数据 是 指 无 法 在 一 定时 间 内 用 常规 机 器 和 软 
硬件 工具 对 其 进行 感知 、 获 取 , 管 理 、 处 理 和 服务 的 数据 集合 。 

尽管 人 们 对 大 数据 的 理解 与 定义 各 不 相同 ,但 有 一 点 是 共同 的 , 那 就 是 大 数据 已 经 引起 
社会 各 界 的 关注 与 重视 。 相 对 于 如 何 定义 大 数据 这 一 概念 ,人 们 更 关注 的 是 如 何 使 用 大 数 
据 ,哪些 技术 能 更 好 地 处 理 大 数据 以 及 大 数据 的 应 用 情况 如 何 。 
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大 数据 所 蕴含 的 社会 .经 济 、 科 学 研究 的 价值 已 经 引起 社会 各 方面 的 广泛 关注 ,如 果 能 
够 有 效 地 利用 大 数据 , 必 将 对 社会 发 展 , 经 济 建设 .科学 研究 产生 深远 的 影响 。 著 名 的 
O'Reilly 公司 断言 :“ 未 来 属于 将 数据 转换 成 产品 的 公司 和 人 们 。” 

谷歌 .雅虎 脸谱、 亚马逊 .IBM 等 公司 是 大 数据 技术 的 直接 受益 者 ,也 是 推动 者 。 谷 歌 
由 于 搜索 引擎 的 需要 ,首先 提出 了 GFSCGoogle File System) X ff & At , MapReduce 计算 机 
制 以 及 大 型 分 布 式 数据 库 BigTable。 在 谷歌 的 带领 下 ,雅虎 .脸谱 等 公司 推出 了 开源 的 分 
布 式 文件 系统 HDFS、MapReduce 机 制 、 分 布 式 数据 库 HBase 等 工具 。 

近 几 年 ,Nature 和 Science 等 国际 顶级 学 术 刊 物 相继 出 版 专刊 ,专门 探讨 对 大 数据 的 研 
究 。2008 年 ,Nature 出 版 专刊 Big Data, 从 互联 网 技术 、 网 络 经 济 学 、 超 级 计算 、 环 境 科学 、 
生物 医药 等 多 个 方面 介绍 了 海量 数据 带 来 的 挑战 。2011 年 ,Science 推出 关于 数据 处 理 的 
专刊 Dealing with data, 讨 论 了 数据 洪流 (Data Deluge) 所 带 来 的 挑战 。 特 别 指出 ,倘若 能 够 
更 有 效 地 组 织 和 使 用 这 些 数据 ,人 们 将 得 到 更 多 的 机 会 发 挥 科学 技术 对 社会 发 展 的 巨大 推 
动作 用 。 

2012 年 3 月 22 日 ,美国 政府 投资 2 亿美 元 启动 了 “大 数据 研究 和 发 展 计划 (Big Data 
Research and Development Initiative)”。 这 是 继 美 国政 府 的 “信息 高 速 公 路 ”计划 之 后 ,又 
一 项 重大 的 科学 研究 计划 。 美 国政 府 认 为 ,大 数据 上 升 为 国家 意志 后 , 必 将 对 未 来 的 社会 生 
产 和 生活 带 来 深远 的 影响 。 该 计划 旨 在 提高 和 改进 人 们 从 海量 和 复杂 的 数据 中 获取 知识 的 
能 力 ,进而 加 速 美国 在 科学 与 工程 领域 发 明 的 步伐 ,增强 国家 安全 。 大 数据 中 蕴含 着 巨大 的 
价值 ,美国 政府 认为 ,大 数据 是 “未 来 的 新 石油 ,对 未 来 的 科技 与 经 济 的 发 展 将 产生 深远 的 
影响 。 此 外 ,欧盟 也 对 科学 数据 基础 设施 投资 1 亿 多 欧元 ,并 将 数据 信息 化 基础 设施 作为 
Horizon 2020 计划 的 优先 项 目 之 一 。 

2012 年 ,联合 国 发 布 了 题名 为 《大 数据 促 发 展 : 挑战 与 机 遇 》 的 白皮书 ,在 白皮书 中 总 
结 了 各 国政 府 如 何 利 用 大 数据 响应 社会 需求 ,指导 本 国 经 济 运 行 , 提 高 本 国人 民 的 生活 水 
平 ,建议 各 国政 府 建立 Pulse Labs( 脉 搏 实验 室 ) ,研究 大 数据 ,挖掘 其 潜在 价值 。 

我 国 的 研究 机 构 与 企业 也 进行 了 相应 的 研究 与 开发 。2012 年 ,中 国 计 算 机 学 会 (CCF) 
发 起 并 成 立 了 CCF 大 数据 专家 委员 会 ,CCF 专家 委员 会 还 成 立 了 一 个 “大 数据 技术 发 展 战 
略 报告 撰写 组 ,撰写 并 发 布 了 (2013 年 中 国 大 数据 技术 与 产业 发 展 白皮书 》。2013 年 以 来 ， 
国家 自然 科学 基金 .863 计划 、973 计划 、 核 高 科 等 研究 计划 都 已 经 把 大 数据 列 为 研究 的 重大 
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可 以 说 ,一 个 国家 拥有 数据 的 规模 和 对 数据 运用 的 能 力 将 会 成 为 一 个 国家 综合 国力 的 
一 部 分 ,对 数据 的 占有 、 控 制 能 力 必 将 成 为 国家 和 企业 间 竞 争 的 制高点 。 


13:3. 大 数据 的 应 用 示例 


大 数据 在 许多 领域 都 有 应 用 ,例如 科学 计算 、 物 联网 、 天 文学 、 天 气 预报 、 基 因 组 学 、 生 物 
学 、 大 社会 数据 分 析 、 互 联网 文件 处 理 、 制 作 互联 网 搜索 引擎 索引 、 通 信 记 录 明 细 、 军 事 侦察 、 
社交 网 络 ,流行 病 预 测 、 医 疗 记录 影像 的 处 理 、 大 规模 的 电子 商务 等 。 


L 在 科学 计算 领域 的 应 用 

大 型 强 子 对 撞 机 是 一 座位 于 瑞士 日 内 瓦 近郊 欧洲 核子 研究 组 织 CERN 的 对 撞 型 粒子 
加 速 器 , 它 有 1. 5 亿 个 传感器 ,每 秒 发 送 4 千 万 次 的 数据 。 实 验 中 每 秒 产生 将 近 6 亿 次 的 对 
撞 , 过 滤 去 除 99.999% 的 撞击 数据 后 ,得 到 约 100 次 的 有 用 撞击 数据 。 将 撞击 结果 数据 过 
滤 处 理 后 仅 记 录 了 0. 001% 的 有 用 数据 ,全 部 四 个 对 撞 机 的 数据 量 复制 前 为 每 年 产生 
25PB, 复 制 后 为 200PB。 这 样 年 数据 增长 将 达 1.5 亿 PB, 也 就 是 相当 于 每 天 500EB, 是 全 世 
界 所 有 数据 源 总 和 的 200 倍 。 


2 在 政府 部 门 的 应 用 

2012 年 ,美国 奥巴马 政府 宣布 启动 大 数据 研究 和 发 展 计划 (Big Data Research and 
Development Initiative) ,致力 于 帮助 政府 部 门 利用 大 数据 解决 重大 问题 。 该 计划 包括 84 个 
不 同 的 大 数据 项 目 工程 和 6 个 部 门 。 此 外 ,美国 联邦 政府 还 拥有 当今 世界 上 顶级 的 十 大 超 
级 计算 机 中 的 六 个 。 负 责 气 象 模拟 的 NASA 部 门 , 在 其 发 现 者 号 超级 计算 机 集群 中 也 存储 
有 32PB 气象 观测 和 模拟 数据 。 这 些 事例 充分 说 明了 美国 政府 部 门 对 大 数据 的 重视 以 及 为 
此 而 展开 的 应 用 。 


3. 在 社会 学 领域 的 应 用 
国际 卫生 学 教授 汉 斯 。 罗 斯 林 使 用 Trendalyzer 工具 软件 ,呈现 了 两 百 多 年 以 来 全 球 
的 人 口 统计 数据 ,并 将 其 与 其 他 数据 ,例如 收入 .宗教 .能 源 使 用 量 等 进行 了 交叉 比 对 。 


4 在 商业 领域 的 应 用 

在 商业 领域 ,大 数据 解决 方案 和 应 用 更 是 百花 齐 放 百家争鸣 。 著 名 的 Facebook 社交 
平台 ,早已 开展 了 基于 用 户 行为 分 析 的 数据 挖掘 和 决策 分 析 ,能 够 对 其 所 有 用 户 的 500 亿 张 
照片 进行 分 析 处 理 。 沃 尔 玛 每 个 小 时 处 理 的 客户 交易 量 超过 百 万 次 ,这 些 交易 的 数据 量 高 
3k 2. 5PB(2560TB) 一 一 相当 于 美国 国会 图 书馆 藏书 量 的 167 倍 。 

2008 年 ,淘宝 开始 投入 资源 研究 基于 Hadoop 的 “云梯 ”数据 处 理 平台 , 它 支撑 了 淘宝 
对 整个 数据 的 分 析 工 作 。 目 前 ,集群 的 节点 数 达 1 700 个 ,数据 量 达 24. 3PB, 并 且 以 每 天 
255TB 的 速度 在 不 断 地 增长 。 

支付 宝 是 国内 一 个 领先 的 第 三 方 支付 平台 ,为 用 户 和 商家 提供 可 信任 的 第 三 方 担保 交 
易 。 支 付 宝 目前 拥有 7 亿 多 注册 用 户 , 合 作 商 家 45 万 家 ,日 交易 3 369 万 笔 ,日 交易 金额 
45 亿 元 。 在 支付 宝 建立 的 以 Hadoop 为 基础 的 数据 处 理 平台 内 , “海狗 ”用 于 实时 搜索 ,“ 剑 
鱼 ” 用 于 数据 查询 ,海星 用 于 数据 挖掘 ,海豚 ?用 于 海量 数据 计算 。 

华为 公司 作为 世界 范围 内 著名 的 电信 设备 供应 商 ,也 积极 地 参与 了 Hadoop 技术 的 应 
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用 与 改进 。 在 Hadoop 的 基础 上 ,扩展 了 Hadoop 技术 ,自主 研发 了 高 可 用 性 Hadoop 平台 。 
在 电信 和 领域 应 用 Hadoop 技术 ,构建 了 基于 Hadoop 的 信和 令 监测 平台 。 同 时 对 Hadoop 核心 
项 目 与 周边 项 目的 改进 做 出 了 较 大 的 贡献 。 

中 国 移动 作为 全 球 最 大 的 移动 运营 商 ,其 业务 涵盖 2G、3G、4G 移动 通信 及 无 线 宽带 接 
入 等 多 种 服务 形式 ,其 用 户 量 达 6 亿 多 。2007 年 ,开始 建立 以 Hadoop 技术 为 基础 的 “大 云 ” 
平台 ,2008 年 建立 了 第 一 个 256 节点 的 集群 。 目 前 ,中 国 移动 已 经 具有 1000 多 个 节点 、 
5 000 个 处 理 器 .3PB 数据 的 大 规模 数据 处 理 平台 ,用 于 进行 用 户 行为 分 析 、 客 户 流失 预测 、 
服务 关联 分 析 、 网 络 服务 质量 分 析 、 过 滤 垃 圾 短 消息 等 。 


1.14 大 数据 研究 的 意义 


CD 大 数据 的 研究 对 捍卫 国家 网 络 空间 的 数字 主权 ,维护 国家 的 安全 稳定 ,经 济 与 社会 
的 健康 发 展 具有 重大 意义 。 信 息 时 代 的 数字 主权 是 继 海陆 、 空 ,天 之 后 的 又 一 大 博弈 空间 ， 
在 大 数据 领域 的 落后 ,意味 着 失守 产业 战略 制高点 ,意味 着 数字 主权 无 险 可 守 ,意味 着 国家 
安全 将 出 现 漏洞 。 大 数据 将 直接 影响 国家 和 社会 稳定 ,是 关系 国家 安全 的 战略 性 问题 。 因 
此 ,公安 .国保 检察院、 法 院 等 关系 到 国家 安全 ,社会 稳定 的 部 门 和 机 关 应 该 加 强 对 大 数据 
技术 的 研究 和 学 习 。 

(2) 大 数据 是 国民 经 济 核心 产业 信息 化 升级 的 重要 推动 力量 。 以 数据 为 王 的 大 数据 时 
代 的 到 来 ,使 产业 界 的 需求 与 关注 点 发 生 了 重大 转变 : 企业 关注 的 重点 转向 数据 ,计算 机 行 
业 正在 转变 为 真正 的 信息 行业 ,从 追求 计算 速度 转变 为 关注 大 数据 处 理 能 力 ,软件 也 将 从 编 
程 为 主 转变 为 以 数据 为 中 心 。 大 数据 处 理 的 兴起 也 改变 了 云 计 算 的 发 展 方向 ,使 其 进入 以 
分 析 即 服务 (AaaS) 为 主要 标志 的 Cloud 2.0 时 代 。 

(3) 大 数据 在 科学 和 技术 上 的 突破 将 可 能 诞生 出 数据 服务 等 战略 性 新 兴 产 业 。 数 据 科 
学 与 技术 的 突破 意味 着 人 们 能 够 厘清 数据 交互 连接 产生 的 复杂 性 ,掌握 数据 元 余 与 缺失 双 
重 特征 引起 的 不 确定 性 ,驾驭 数据 的 高 速 增长 与 交叉 互联 引起 的 涌现 性 ,进而 能 够 根据 实际 
需求 从 网 络 数据 中 挖掘 出 其 所 蕴含 的 信息 、 知 识 甚至 是 智慧 ,最 终 达 到 充分 利用 网 络 数据 价 
值 的 目的 。 网 络 数据 不 再 是 产业 环节 上 产生 的 副产品 ,相反 地 ,网 络 数据 已 成 为 联系 各 个 环 
节 的 关键 纽带 ,通过 对 网 络 数据 纽带 的 分 析 与 掌握 ,可 以 降低 行业 成 本 ,促进 行业 效率 ,提升 
行业 生产 力 。 因 此 ,可 以 预见 ,在 网 络 数据 的 驱动 下 ,行业 模 式 的 革新 将 可 能 催生 出 数据 服 
务 等 一 系列 战略 性 的 新 兴 产 业 。 


1.2 大 数据 处 理 技术 简介 


121 大 数据 的 关键 技术 


众所周知 ,大 数据 所 面临 的 已 经 不 是 数据 量 大 的 问题 了 ,最 重要 的 问题 是 分 析 大 数据 ， 
只 有 通过 分 析 才 能 获取 更 多 智能 的 、 深 入 的 、 有 价值 的 信息 。 当 前 , 越 来 越 多 的 应 用 涉及 大 
数据 ,而 这 些 大 数据 的 属性 ,包括 数量 、 速 度 、 多 样 性 等 都 呈现 了 大 数据 不 断 增长 的 复杂 性 ， 
所 以 大 数据 的 分 析 方 法 在 大 数据 领域 就 显得 尤为 重要 ,可 以 说 是 决定 最 终 信息 是 否 有 价值 
的 决定 性 因素 。 那 么 ,大 数据 分 析 普 遍 使 用 的 方法 与 技术 有 哪些 呢 ? 
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l 大 数据 的 存储 技术 

数据 存储 是 数据 处 理工 作 的 基石 。 大 数据 的 存储 不 仅 关注 数据 存储 容量 的 问题 ,也 关 
注 数 据 的 管理 ,更 关注 数据 存 取 的 性 能 问题 。 提 升 系统 存储 容量 的 方式 有 四 种 。@ 采 用 新 
技术 提升 磁盘 的 存储 密度 ,把 单个 硬盘 的 容量 从 GB 级 提升 到 TB REZEN., OHER 
存储 (DAS) , 即 把 多 块 磁盘 连接 起 来 通过 高 性 能 接口 (如 SCSI FC 等 ) 与 计算 机 直接 相连 ， 
构成 磁盘 阵列 ,这 种 方式 扩展 性 差 ,资源 利用 率 低 。 加 网 络 接 人 存储 (NAS) 技 术 ,通常 是 通 
过 高 速 网 络 交换 机 把 存储 设备 与 服务 器 连接 起 来 ,以 实现 高 速 与 大 容量 的 数据 存 取 服 务 ,这 
种 方式 受制 于 网 络 带 宽 , 不 适合 数据 块 级 的 访问 ,无 法 实现 集中 备份 。@ 存 储 区 域 网 络 
(AND ,是 提供 格式 统一 的 数据 块 级 访问 能 力 的 一 种 专用 局 域 网 络 。 采 用 这 种 架构 ,系统 
整合 程度 高 ,数据 集中 度 高 ,扩展 性 强 , 长 期 拥有 的 成 本 较 低 。 

数据 的 吞吐 量 是 大 数据 系统 面临 的 另 一 个 问题 。 对 单 磁盘 ,提升 吞吐 量 的 方法 是 提高 
磁盘 转速 改进 磁盘 接口 形式 和 增加 读 写 缓存 等 。 对 数据 存储 系统 ,早期 提升 吞吐 量 的 方法 
主要 是 采用 专用 的 数据 库 机 体系 。 

Google 公司 提出 的 谷歌 文件 系统 (GFS) 解 决 了 大 数据 对 存储 系统 容量 和 吞吐 量 的 需 
求 , 受 GFS 启发 而 设计 的 Hadoop 的 HDFS 系统 采用 分 布 式 存储 ,解决 了 大 数据 的 存储 问 
题 。 将 在 以 后 的 章节 中 介绍 详细 技术 细节 。 


2 大 数据 处 理 的 计算 技术 

大 数据 时 代 需 要 处 理 的 数据 量 是 真正 意义 上 的 海量 ,要 处 理 这 些 数据 就 需要 有 强劲 的 
处 理 能 力 ,提升 处 理 能 力 的 方式 有 两 种 : 第 一 种 是 提升 处 理 器 的 计算 性 能 。 第 二 种 是 采用 
并 行 计算 技术 。 

1) 单 处 理 器 性 能 的 提升 

单 处 理 器 性 能 的 提升 主要 有 以 下 几 种 方式 。 

C1) 提升 处 理 器 的 字 长 。 单 处 理 器 的 字 长 从 最 初 的 4 位 发 展 到 现在 64 位 , 字 长 的 发 展 
提升 了 处 理 器 的 性 能 。 

(2) 提升 处 理 器 的 集成 度 与 主 频 。 随 着 集成 电路 技术 的 进步 ,芯片 中 集成 的 晶体 管 数 
量 在 不 断 地 增加 ,处 理 器 的 主 频 也 在 不 断 地 提高 。 但 是 ,2004 年 以 后 ,人 们 发 现 单 颗 处 理 器 
的 集成 度 和 主 频 似乎 接近 了 极限 。 在 现 有 的 半导体 制造 工艺 下 ,集成 度 不 可 能 无 限制 提升 ， 
芯片 的 功 耗 随 着 集成 度 和 主 频 的 提升 也 在 快速 地 增加 ,处 理 器 的 散热 问题 变 得 难以 解决 。 
2005 年 以 后 ,Intel 公司 不 再 追求 单 处 理 器 的 计算 性 能 , 转 而 以 多 核 微 处 理 器 计算 性 能 的 提 
升 为 主 。2006 年 以 后 ,推出 了 多 款 多 核 微 处 理 器 ,例如 ,2006 年 的 Pentium D 处 理 器 ,2007 年 
的 4 核 Core 2 Quad 系列 ,2008 一 2010 年 间 推 出 的 Core i3 ,15 和 1i7 系列 ,以 及 服务 器 处 理 器 
的 Xeon E5 和 E7 系列 。 

2) 采用 并 行 计算 技术 

随 着 计算 机 和 信息 技术 的 不 断 进 步 ,行业 领域 积累 的 数据 量 不 断 增 加 ,数据 规模 也 急剧 
增加 。 如 全 球 互联 网 企业 拥有 的 数据 量 少 的 有 几 百 TB, 多 的 有 几 千 PB, 如 此 巨大 的 数据 
量 , 采 用 传统 的 单 处 理 器 与 串 行 处 理 技 术 是 很 难 在 可 以 接受 的 时 间 限 度 内 处 理 完成 的 ,这 时 
就 需要 采用 新 的 并 行 处 理 技术 对 巨 量 的 大 数据 进行 处 理 。 

按 系 统 的 类 型 ,并行 计算 系统 可 以 分 为 以 下 几 种 。 
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。 多 核 / 众 核 计算 系统 , 即 单个 处 理 器 中 含有 多 个 核心 或 众多 个 核心 。 

。 对 称 多 处 理 器 系统 (Symmetric Multi Processing,SMP), 用 总 线 把 多 个 相同 的 处 理 
器 连接 起 来 ,并 共享 存储 器 而 构成 的 并 行 计算 系统 。 

。 大 规模 并 行 处 理 系统 (Massive Parallel Processing. MPP), 用 专用 局 域 网 把 一 组 处 
理 器 连接 起 来 形成 一 种 并 行 计算 系统 。 

* 集群 (Cluster) ,用 网 络 把 一 群 普通 商用 计算 机 连接 起 来 构成 集群 ,进行 并 行 计算 。 

* 网 格 (Grid) ,用 网 络 把 远 距离 分 布 的 异 构 计 算 机 连接 起 来 形成 并 行 计算 系统 。 

按 程 序 的 设计 模式 ,并行 计算 系统 分 为 以 下 三 种 模式 。 

* Map Reduce: 这 个 设计 模型 是 由 Google 在 2004 年 推出 的 一 种 并 行 计算 架构 ,该 模 
式 下 把 解决 问题 分 为 两 步 : 第 一 步 ,使 用 一 个 串 行 的 Mapper 函数 分 别处 理 一 组 不 
同 的 数据 ,生成 一 个 中 间 结 果 。 第 二 步 , 将 第 一 步 的 处 理 结果 用 一 个 Reducer 函数 
进行 处 理 ( 例 如 ,归并 操作 ) ,生成 最 后 的 结果 。Map Reduce 模式 是 目前 主流 的 大 数 
据 处 理 并 行程 序 设计 模式 。 本 书 介 绍 的 Hadoop 架构 下 使 用 的 就 是 MapReduce 
模式 。 

。 消息 传递 模式 (多 进程 并 行 模式 ): 对 分 布 式 内 存 访问 结构 的 系统 ,为 了 分 发 数据 实 
现 并 行 计算 ,随后 收集 计算 结果 ,需要 在 各 个 计算 节点 或 计算 任务 间 进 行 数据 通信 。 
这 种 模式 又 可 以 理解 为 多 进程 处 理 模式 。 最 常见 的 消息 传递 方式 为 MPICMessage 
Passing Interface, 消 息 传递 并 行 编程 接口 标准 ) 。 

。 共享 存储 变量 模式 (多 线程 并 行 模式 ): 共享 变量 模式 应 用 非常 广泛 ,发 展 至 今 ,出 
现 了 许多 并 行 编程 接口 ,有 开源 的 ,也 有 商业 版 的 并 行 编程 接口 ,如 : pthread、 
OpenMP, Intel TBB 等 。OpenMP 采用 了 请 言 扩 充 的 方式 ,简单 易 用 ,不 需要 修改 代 
码 , 仅 仅 需 要 添加 指导 性 语句 ,应 用 较 广 。 


3. 可 视 化 分 析 

大 数据 分 析 的 使 用 者 既 有 大 数据 分 析 专 家 ,也 有 普通 用 户 ,他 们 二 者 对 大 数据 分 析 最 基 
本 的 要 求 就 是 可 视 化 分 析 , 因 为 可 视 化 分 析 能 够 直观 地 呈现 大 数据 特点 ,同时 能 够 非常 容易 
被 读者 所 接受 ,就 如 同 看 图 说 话 一 样 简单 明了 。 


4 数据 挖掘 算法 

大 数据 分 析 的 理论 核心 就 是 数据 挖掘 算法 。 各 种 数据 挖掘 的 算法 需要 基于 不 同 的 数据 
类 型 和 格式 才能 更 加 科学 地 呈现 出 数据 本 身 具 备 的 特点 ,也 正 是 因为 这 些 被 全 世界 统计 学 
家 所 公认 的 各 种 统计 方法 (可 以 称 为 真理 ) 才 能 深入 数据 内 部 ,挖掘 出 公认 的 价值 。 另 外 一 
个 方面 也 是 因为 有 这 些 数 据 挖掘 的 算法 才能 更 快速 地 处 理 大 数据 ,如 果 一 个 算法 得 花 上 好 
几 年 才能 得 出 结论 , 那 大 数据 的 价值 也 就 无 从 谈 起 了 。 


5 数据 质量 和 数据 管理 
大 数据 分 析 离 不 开 数 据 质量 和 数据 管理 ,高 质量 的 数据 和 有 效 的 数据 管理 ,无 论 是 在 学 
术 研 究 还 是 在 商业 应 用 领域 ,都 能 够 保证 分 析 结 果 的 真实 和 有 价值 。 


6 大 数据 价值 与 隐私 保护 
大 数据 在 各 行业 的 价值 越发 重要 ,并 出 现 了 数据 市 场 。 一 种 是 公众 数据 市 场 ,比如 美国 
政府 倡导 的 政府 开放 数据 计划 data. gov 的 数据 门户 ,用 户 在 该 门户 上 可 以 免费 获得 某 方面 
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社会 的 数据 ;一 种 是 有 价 交易 市 场 , 像 data. com 上 Salesforce 有 价 提供 用 户 的 分 析 结 果 的 
数据 ,还 有 Microsoft Azure 的 Marketplace。 电 信和 运营 商 目前 探索 的 向 其 他 行业 有 偿 提 供 
数据 分 析 结 果 也 属于 此 类 。 

另 一 方面 ,大 数据 的 收集 和 使 用 中 有 关 用 户 个 人 隐私 数据 也 是 各 界 广泛 争论 的 焦点 。 
2013 年 1 月 ,瑞士 达 沃 斯 世界 经 济 论坛 题 为 “解锁 个 人 信息 的 价值 : 从 收集 到 使 用 ”的 报告 
建议 ,要 将 大 数据 监管 重心 从 收集 环节 转移 到 限制 数据 的 使 用 。 但 是 ,刚刚 披露 的 美国 “ 棱 
镜 门 ?事件 ,更 是 让 大 数据 的 收集 和 使 用 蒙 上 了 一 层 阴 影 ,也 使 得 数据 安全 在 国家 间 的 竞争 
中 显得 尤为 重要 。 可 见 ,要 平衡 大 数据 的 使 用 和 保护 是 一 项 艰巨 的 任务 。 


lee 大 数据 处 理 模式 及 其 系统 


自从 2004 年 Google 把 MapReduce 计算 模式 引入 搜索 引擎 领域 ,人 们 领略 到 了 它 在 处 
理 大 数据 方面 强大 功能 ,纷纷 对 它 进行 深入 细致 的 研究 ,研制 出 了 一 系列 的 开源 系统 ,其 中 
以 Hadoop 为 典型 代表 。 经 过 一 段 时 间 的 研究 与 应 用 后 ,人 们 发 现 Hadoop 系统 并 不 能 适 
应 所 有 的 场景 与 应 用 。 比 如 : 适合 于 离线 批 处 理 的 Hadoop 对 流 式 数据 或 者 具有 复杂 数据 
关系 或 者 计算 复杂 的 大 数据 就 无 能 为 力 , 于 是 ,业界 和 学 术 界 研究 并 推出 了 各 种 大 数据 处 理 
系统 。 主 要 有 对 静态 数据 进行 批量 处 理 的 系统 、 对 实时 流 数 据 进 行 处 理 的 系统 、 进 行 实 时 交 
互 计算 的 系统 、 对 图 数据 进行 综合 处 理 的 系统 4 种 形式 ,下 面 就 对 它们 的 特征 及 典型 系统 进 
行 介绍 。 

1. 批 处 理 系统 的 特征 及 典型 应 用 

最 早 被 设计 出 来 的 批 处 理 系统 是 用 于 Google 搜索 引擎 的 处 理 系统 , 它 处 理 的 数据 有 以 
下 三 个 特点 。@ 数 据 体 量 巨 大 。 数 据 从 TB 级 别 越 升 到 PB 级 别 ,并 且 随 着 时 间 的 推移 , 数 
据 还 在 不 断 地 增加 。 加 多 为 静态 精确 数据 。 这 些 数据 往往 都 是 各 业务 系统 长 期 沉积 下 来 
的 ,精度 相对 较 高 ,这 些 数据 一 般 情 况 下 是 不 会 进行 更 新 的 ,是 企业 的 无 形 资产 。@ 数 据 的 
价值 密度 低 。 如 监控 视频 中 经 常会 出 现 毫 无 意义 的 静止 画面 ,有 意义 的 画面 可 能 只 有 一 小 
段 时 间 。 因 此 ,需要 采用 合理 的 算法 从 批量 的 数据 中 提取 出 有 价值 的 信息 ,而 这 个 过 程 又 比 
较 费 时 ,并 且 没 有 用 户 与 系统 交互 的 手段 。 当 发 现 处 理 结果 与 预期 不 符 时 ,已 经 花费 了 不 少 
时 间 , 所 以 , 批 处 理 适合 于 较为 成 熟 的 应 用 。 

批 处 理 的 典型 应 用 主要 有 以 下 几 和 种。 中 搜索 引擎 : Google 使 用 MapReduce 模型 对 抓 
取 到 的 网 络 数据 进行 PageRank 值 的 计算 ,并 建立 查询 索引 。Yahoo 采用 该 模型 设计 了 广 
告 分 析 系 统 ,通过 对 广告 相关 数据 的 批量 处 理 , 改 善 广告 的 投放 效果 以 提高 用 户 的 点 击 量 。 
加 社交 网 络 的 分 析 : Facebook HERF AIR HT fA MSN 等 社交 网 络 产 生 了 大 量 的 文本 、 
图 片 、 视 频 、 音 频 等 数据 ,对 这 些 数据 进行 分 析 可 以 发 现 这 些 数 据 背 后 隐藏 的 人 与 人 之 间 、 人 
与 社区 之 间 的 关系 , 据 此 ,可 以 推荐 朋友 或 相关 主题 ,提升 用 户 的 体验 。@ 电 子 商务 : 电子 
商务 网 络 中 记录 了 海量 的 客户 购物 历史 记录 、 商 品 与 店家 评价 、 客 户 浏览 的 足迹 、 驻 留 的 时 
间 等 ,对 这 些 数据 进行 分 析 , 可 以 了 解 顾客 的 兴趣 与 需求 ,向 顾客 推荐 商品 ,提高 顾客 的 满意 
度 , 提 高 商务 网 站 的 业绩 。@ 公 共 安 全 领域 : 随 着 安全 城市 .社区 的 建设 ,城市 中 安装 了 大 
量 的 视频 监控 探头 ,使 用 批 处 理 系 统 为 监控 系统 提供 海量 数据 的 存储 与 标记 服务 。 在 金融 
证 券 期 货 业 中 ,经 纪 人 经 常 利 用 其 特殊 身份 进行 内 幕 交 易 “ 老 鼠 仓 ”等 违法 活动 ,使 用 批 处 
理 系 统 对 客户 的 异常 交易 进行 判断 ,对 可 能 存在 的 欺诈 行为 进行 预警 ,对 已 经 发 生 的 违法 交 
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易 行 为 进行 关联 、 碰 撞 、 判 断 , 从 而 找 出 威胁 金融 安全 的 违法 行为 。 

批 处 理 系统 的 代表 首先 是 由 Google 公司 在 2003 年 研发 出 的 GFS, 在 2004 年 研发 出 了 
MapReduce 编程 模型 。 在 Web 环境 下 批 处 理 系 统 以 其 对 海量 数据 的 处 理 能 力 , 在 学 术 界 
和 业界 引起 了 很 大 的 反响 ,但 Google 没有 公开 这 项 技术 的 源码 ,只 是 发 表 了 两 篇 相关 论文 。 
根据 这 两 篇 论文 , Yahoo 公司 的 Nutch 项 目下 的 子 项 目 Hadoop 实现 了 两 个 开源 产品 : 
HDFS 和 MapReduce, HDFS 负责 静态 数据 的 存储 ,MapReduce 将 计算 任务 分 配 到 拥有 数 
据 的 节点 进行 分 布 式 并 行 计算 。 然 后 ,以 HDFS 和 MapReduce 为 基础 ,研发 出 了 一 系列 产 
品 ,形成 了 Hadoop EAR. 

MapReduce 编程 模型 广 受 欢迎 的 原因 有 三 个 。@D MapReduce 采用 无 共享 大 规模 集群 
系统 ,集群 系统 拥有 良好 的 性 价 比 和 可 伸缩 性 ,这 是 它 成 为 处 理 大 数据 首选 平台 的 重要 原 
因 。@MapReduce 模型 简单 .易于 理解 .易于 使 用 ,编程 处 理 大 数据 时 ,系统 隐藏 了 烦琐 的 
技术 细节 (自动 并 行 化 .负载 均衡 、 容 错 管理 等 ) ,而 且 很 多 机 器 学 习 数据 挖掘 算法 都 可 以 在 
MapReduce 模型 下 实现 。@ 通 过 合适 的 查询 优化 和 索引 技术 ,MapReduce 模型 也 能 提供 很 
好 的 数据 处 理性 能 。 


2 流 式 数据 处 理 系统 的 特征 及 典型 应 用 

针对 批 处 理 系统 的 性 能 问题 .Google 于 2010 年 推出 了 Dremel 实时 数据 处 理 系统 , 实 
时 处 理 系统 分 为 流 式 数据 处 理 系统 和 交互 式 数据 处 理 系统 。 流 式 数据 处 理 系统 是 源 于 服务 
器 日 志 进 行 实时 采集 而 设计 的 。 

流 式 数据 是 一 个 无 穷 的 数据 序列 ,序列 中 的 每 一 个 元 素来 源 各 异 ,格式 复杂 ,序列 往往 
包含 时 序 特征 ,或 者 其 他 的 有 序 标签 (如 IP 报 文中 的 序列 号 ) 。 流 式 数据 在 不 同 的 场景 下 往 
往 体现 出 不 同 的 特征 ,如 流速 大 小 、 元 素 特性 数量 、 数 据 格式 等 。 但 大 部 分 流 式 数据 都 含有 
共同 的 特征 ,这 些 特征 便 可 用 来 设计 通用 的 流 式 数 据 处 理 系统 。 

流 式 数据 共有 的 特征 包括 : 流 式 数据 的 元 组 通常 带 有 时 序 标签 或 其 他 含 序 属性 。 央 
此 ,同一 流 式 数据 往往 是 被 按 序 处 理 的 ,然而 数据 的 到 达 顺 序 是 不 可 知 的 ,由 于 时 间 和 环境 
的 动态 变化 ,无 法 保证 重 放 数据 流 与 之 前 数据 流 中 数据 元 素 顺序 的 一 致 性 。 这 就 导致 了 数 
据 的 物理 顺序 与 旭 辑 顺序 的 不 一 致 ,并 且 数 据 的 流速 有 很 大 的 波动 ,因此 ,系统 需要 有 很 大 
的 伸缩 性 才能 动态 适应 不 确定 流入 的 数据 流 。 四 数据 流 中 的 数据 格式 是 复杂 的 ,可 能 是 结 
构 化 的 、 半 结构 化 的 甚至 是 无 结构 化 的 。 数 据 流 在 传输 中 可 能 是 错误 的 ,也 可 能 含有 垃圾 信 
息 , 因 此 数据 流 要 有 很 好 的 容错 性 和 异 构 数据 的 分 析 能 力 ,数据 的 动态 清洗 及 格式 处 理 能 
力 。@ 流 式 数据 是 活动 的 ,用 完 即 弃 。 随 着 时 间 的 推移 不 断 增长 ,这 与 传统 的 数据 处 理 模式 
(存储 一 查询 ) 不 同 ,要 求 系统 能 够 根据 局 部 数据 进行 计算 ,保存 数据 流 的 动态 属性 , 流 式 处 
理 系统 针对 该 特性 ,应 当 提 供 流 式 查询 接口 :也 就 是 提交 动态 的 SQL 语句 ,实时 地 返回 当前 
结果 。 

流 式 计 算 的 典型 应 用 有 两 类 。@ 〇 数据 采集 应 用 : 数据 采集 应 用 是 指 通过 主动 获取 海量 
的 实时 数据 ,及 时 地 挖掘 有 价值 的 信息 。 数 据 采 集 包括 日 志 采 集 、 传 感 器 采集 、Web 数据 采 
集 等 。 日 志 采 集 是 针对 不 同系 统 平台 不 断 产生 的 日 志 信息 进行 流 式 挖掘 ,达到 动态 提醒 和 
预警 的 功能 。 传 感 器 采集 是 指 通过 采集 传感器 的 信息 (时 间 、 位 置 .环境 和 行为 等 ) ,实时 分 
析 并 提供 动态 信息 展示 ,目前 主要 采集 的 信息 包括 智能 交通 、 环 境 监控 ,灾难 预警 等 。Web 
数据 采集 就 是 通过 清洗 、 归 类 ,分 析 并 挖掘 其 数据 价值 。@ 金 融 行 业 的 应 用 。 金 融 行 业 在 日 
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常 运营 过 程 中 产生 大 量 数据 ,这 些 数据 的 时 效 性 较 小 ,有 结构 化 数据 ,也 有 半 结 构 化 数据 ,还 
有 非 结 构 化 数据 。 通 过 对 这 些 大 数据 的 流 式 计 算 ,发 现 隐藏 于 其 中 的 内 在 特征 ,可 帮助 金融 
行业 进行 实时 决策 ,这 与 传统 的 商业 智能 (BD 分 析 不 同 ,BI 要 求 数据 是 静态 的 ,通过 数据 挖 
掘 技术 ,获得 数据 的 价值 ,然而 在 瞬息 万 变 的 场景 下 ,诸如 股票 期 货 市 场 ,数据 挖掘 技术 不 能 
及 时 地 响应 需求 ,这 时 就 需要 借助 流 式 或 数据 处 理 的 帮助 。 

总 之 , 流 式 数据 的 特点 是 : 数据 连续 不 断 、 来 源 众多 ,格式 复 杂 、 物 理 顺序 不 一 、 数 据 的 
价值 密度 低 。 而 对 应 的 处 理工 具 则 需 具备 高 性 能 、 实 时 、 可 扩展 等 特性 。 

流 式 数 据 处 理 系 统 的 典型 代表 有 Twitter 的 Storm. Facebook 的 Scribe. Linkedin 的 
Samza,Cloudera 的 Flume,Apache 的 Nutch。 

Storm 是 一 个 分 布 式 流 式 数据 处 理 系 统 , 要 处 理 的 流 式 作业 被 分 配 到 不 同类 型 的 组 件 ， 
每 个 组 件 负责 一 项 简单 特定 的 任务 。 在 Storm 集群 中 ,由 Spout 组 件 负责 流 式 数据 的 输入 ， 
由 Bolt 组 件 处 理 数据 ,如 持久 化 或 转发 给 其 他 的 Bolt, Storm 可 以 看 作 一 条 由 Bolt 组 成 的 
链 ( 称 为 Topology)。 

Storm 集群 分 为 三 类 节点 : Nimbus 节点 负责 提交 任务 ,分 发 执行 代码 ,为 每 个 工作 节 
点 指派 任务 和 监控 失败 的 任务 ;Zookeeper 节点 负责 集群 的 协同 操作 ;Supervisor 节点 负责 
启动 多 个 Worker, 执 行 Topology 的 一 部 分 。 

Storm 的 特点 : 四 编程 方式 简单 。Storm 提供 了 类 似 于 MapReduce 的 操作 ,降低 了 并 
行 实时 处 理 的 复杂 性 。@ 良 好 的 水 平 扩 展 能 力 。 任 务 在 多 个 服务 器 之 间 以 多 线程 或 多 进程 
的 方式 并 行 执行 ,Zookeeper 负责 任务 的 协同 操作 ,因此 ,水 平 扩 展 上 不 存在 瓶颈 。@ 快 速 
可 靠 的 消息 处 理 。ZeroMQ 作为 Storm 中 的 消息 队列 ,具有 极 快 的 消息 传递 速度 ,保证 了 消 
息 的 处 理 。 


3. 交互 式 数据 处 理 系统 的 特征 及 典型 应 用 

交互 式 数据 处 理 系统 与 操作 人 员 以 对 话 的 方式 进行 交互 ,数据 以 对 话 的 方式 输入 ,系统 
返回 相应 的 数据 或 提示 信息 ,操作 人 员 据 此 进行 下 一 步 的 操作 ,直至 最 后 获得 满意 的 结果 。 

交互 式 数据 处 理 系统 典型 的 应 用 有 两 类 。 呈 信息 处 理应 用 。 包 括 传统 的 数据 处 理 分析 
联机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP)。 联 机 事务 处 理 系统 目前 广泛 地 应 用 于 对 
操作 序列 有 要 求 的 工业 控制 领域 及 商业 企业 、 医 疗 、 政 府 部 门 等 领域 ;联机 分 析 处 理 系 统 则 
广泛 用 于 基于 数据 仓库 的 数据 分 析 与 商业 智能 等 领域 。 目 前 ,基于 开源 的 Hive, Pig 等 数据 
仓库 均 能 整合 各 类 数据 实现 数据 的 综合 分 析 。 四 互联 网 领域 。 随 着 互联 网 的 发 展 , 出 现 了 
各 种 交互 式 数据 处 理 平台 ,如 : 搜索 引擎 .电子 邮件 、 即 时 通信 、 社 交 网 络 、 微 博 、 微 信 等 ,而 
且 还 出 现 了 像 百度 知道 .新 浪 爱 问 以 及 Yahoo 的 知识 堂 等 交互 式 问答 平台 。 在 这 些 系统 
中 ,传统 的 关系 型 数据 库 已 经 不 能 满足 交互 式 数据 处 理 的 要 求 。 目 前 ,出 现 的 NoSQL 类 型 
的 数据 库 则 可 以 满足 这 种 要 求 。 如 : HBase 采用 多 维 的 列 存储 方式 ; MongoDB 则 采用 
JSON 格式 肉 套 存储 数据 。 

交互 式 系统 的 典型 代表 有 Berkeley 的 Spark 和 Google 的 Dremel 系统 。 

Spark 是 一 个 基于 内 存 计算 的 开源 计算 系统 ,为 了 改进 MapReduce 在 网 络 传输 、IO 等 
方面 效率 较 低 的 不 足 , 使 用 内 存 进行 数据 的 计算 ,可 以 实现 快速 查询 、 实 时 返回 分 析 结 果 的 
目标 。 同 样 的 算法 在 Spark 中 比 Hadoop 快 10 一 100 fi Jf HAZ Hadoop 的 存储 层 API. 
可 以 访问 HDFS,HBase,SequenceFile 等 。Spark Shell 则 可 以 提供 交互 式 查询 功能 。 
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Spark 具有 以 下 三 个 特点 。Q@Spark 具有 轻 量 级 的 集群 计算 框架 。Spark 将 Scala 应 用 
于 其 程序 框架 ,Scala 语言 具有 并 发 性 .扩展 性 。@Spark 包含 了 流 式 计 算 和 交互 计算 的 模 
式 。Spark 可 以 与 Hadoop 交互 读 取 其 下 的 数据 文件 ,并 且 Spark 提供 了 和 迭代 内存 计 算 及 
交互 式 计 算 ,为 机 器 学 习 和 数据 挖掘 提供 了 很 好 的 框架 。@Spark 具有 很 好 的 容错 性 。 
Spark 集群 中 使 用 了 弹性 分 布 数据 集 (RDD) ,RDD 被 表示 为 Scala 对 象 , 其 分 布 在 一 组 节点 
的 只 读 对 象 集中 ,如 果 有 一 部 分 数据 丢失 ,可 以 对 丢失 的 数据 进行 重建 。 

Dremel 是 Google 研发 的 一 个 交互 式 数据 分 析 系 统 , 它 是 对 MapReduce 的 有 力 补 充 ， 
可 以 通过 MapReduce 将 数据 导入 Dremel 中 ,使 用 Dremel 来 开发 数据 分 析 模 型 ,最 后 在 
MapReduce 中 运行 数据 分 析 模 型 。 

Dremel 具有 以 下 几 个 特点 。@Dremel 是 一 个 大 规模 的 交互 式 计算 框架 。 在 Dremel 
中 可 以 将 PB 级 的 数据 处 理 缩短 至 秒 级 ,如 此 的 处 理 速度 ,需要 一 个 大 规模 的 集群 才能 完 
成 。 交 互 处 理 能 力 是 对 MapReduce 的 有 力 补 充 。@Dremel 的 数据 模型 是 嵌 套 的 。Dremel 
的 数据 模型 类 似 于 JSON ,使 用 此 种 模型 能 够 很 好 地 解决 查询 中 的 JOIN 操作 。@ Dremel 
中 数据 是 以 列 方式 存储 的 。 在 进行 数据 分 析 时 ,可 以 只 扫描 需要 的 部 分 ,从 而 减少 CPU 运 
FA I/O 访问 量 。@Dremel 结合 了 Web 搜索 和 并 行 DBMS 的 技术 。 它 借鉴 了 Web 搜索 
中 查询 树 的 概念 ,将 一 个 大 的 复杂 查询 分 割 为 较 小 、 较 简单 的 查询 ,分 配 到 大 量 并 发 节点 上 ， 
并 且 也 可 以 提供 类 SQL 接口 。 


4 图 数据 处 理 系统 

图 是 由 点 和 边 组 成 的 ,由 于 它 能 够 很 好 地 表示 事物 之 间 的 关系 ,所 以 被 广泛 地 应 用 于 多 
个 领域 。 图 数据 具有 以 下 特点 。@ 节 点 之 间 具 有 关联 性 。 图 中 有 多 个 节点 ,节点 之 间 的 联 
系 由 边 来 表示 ,并 且 边 的 数量 是 节点 数量 的 指数 倍 , 故 节点 和 边 同 等 重要 。 由 于 点 和 边 实 例 
化 构成 了 各 种 图 ,如 语义 图 .属性 图 .标签 图 以 及 特征 图 。@ 图 数据 的 种 类 繁多 。 图 可 以 用 
来 表示 生物 .化 学 .计算 机 视觉 .社会 网 络 .知识 发 现 等 领域 的 数据 ,每 个 领域 对 图 数据 处 理 
的 要 求 不 同 ,因此 没有 一 个 通用 的 图 数据 处 理 系 统 适用 于 所 有 领域 。@ 图 数据 具有 很 强 的 
耦合 性 。 图 中 数据 之 间 是 相互 关联 的 ,图 中 数据 的 计算 也 是 相关 联 的 ,因此 当 节 点 数量 达到 
百 万 甚至 更 高 时 ,对 系统 的 处 理 能 力 是 一 个 巨大 的 挑战 。 大 图 难以 用 单个 节点 来 计算 ,而 分 
布 到 多 个 节点 进行 并 行 计算 就 涉及 图 的 分 割 问题 ,而 大 图 是 很 难 分 割 成 完全 独立 的 小 图 的 ， 
即使 分 割 成 了 小 图 ,也 存在 并 行 数据 处 理 的 协同 问题 和 计算 结果 的 合并 问题 。 

图 计算 能 很 好 地 表示 实体 之 间 的 关系 ,因此 ,被 广泛 应 用 于 自然 科学 研究 、 网 络 社会 分 
析 及 交通 领域 。@ 在 自然 科学 研究 中 的 应 用 。 可 以 把 图 用 在 化 学 分 子 式 中 查找 分 子 , 在 蛋 
白质 网 络 中 查找 化 合 物 ,在 DNA 中 查找 特定 序列 。@ 在 网 络 社会 分 析 中 的 应 用 。 随 着 网 
络 技术 的 发 展 , 出 现 了 许多 的 社交 网 络 , 如 : Twitter、 微 博 、Facebook、 人 人 网 等 ,用 图 可 以 
表示 人 与 人 的 关系 ,从 而 研究 群体 社会 关系 。@ 交 通 领 域 的 应 用 。 可 以 使 用 图 来 计算 最 短 
路 径 、 邮 政 快 递 的 规划 等 。 

图 数据 处 理 系统 的 典型 代表 有 : Pregel 系统 、GraphLab、Giraph、Neo4j、HyperGraphDB、 
Trimity 和 Grappa 等 ,下 面 简要 介绍 一 下 Google 的 Pregel 系统 ,微软 的 Trinity 以 及 Neo4j。 

Pregel 是 Google 提出 的 分 布 式 图 计算 框架 , 主要 用 于 图 遍历 .最 短路 径 计算 、 
PageRank 计算 等 。Pregel 具有 以 下 特点 。@D 采 用 主 /从 架构 来 实现 整体 功能 。Mater 节点 
负责 对 整个 图 的 分 割 , 根 据 ID 的 散 列 值 把 计算 任务 分 配 到 Slave 机 器 进行 超 步 计算 ,并 将 
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结果 返回 到 Master 节点 。 回 系统 具有 和 良好 的 容错 性 。 系 统 通过 Checkpoint 机 制 进行 

Neo4j 是 一 个 高 性 能 的 、 鲁 棒 的 图 数据 库 , 它 基于 Java 开发 ,适用 于 社会 网 络 和 动态 网 
络 等 场景 ,在 处 理 复 杂 网 络 数据 时 表现 出 良好 的 性 能 。Neo4j 重点 解决 了 大 量 连接 的 查询 
问题 ,提供 了 非常 快 的 图 算法 ,推荐 系统 .OLAP 风格 的 分 析 , 满 足 了 企业 的 应 用 、 健 壮 性 和 
性 能 的 分 析 , 所 以 得 到 了 很 好 的 应 用 。 

Neo4j 具有 以 下 特点 。@D 支 持 数据 库 的 所 有 特点 。 四 高 可 用 性 。 回 可 扩展 性 。@@ 灵 活 
性 。Neo4j 具有 灵活 的 数据 结构 ,通过 Java-API 直接 与 图 模型 进行 交互 ,对 JRuby/Ruby、 
Scala, Python, Clojure 等 语言 都 有 相应 的 开发 库 。@ 高 速 遍历 。Neo4j 遍历 图 的 速度 是 常 
数 ,与 图 的 规模 无 关 。 

Trinity 系统 是 微软 推出 的 一 款 建立 在 分 布 式 存储 上 的 计算 平台 ,提供 了 高 度 并 行 查 
询 .事务 记录 、 一 致 性 控制 等 功能 , 它 具 有 以 下 三 个 特点 。 中 数据 模型 是 超 图 。 也 就 是 说 图 
中 一 条 边 可 以 连接 任意 数量 的 图 的 顶点 , 超 图 比 简单 图 的 适用 性 更 强 , 保 留 的 信息 更 多 。 
@ 并 发 性 : Trinity 提供 了 一 个 图 分 割 机 制 ,用 一 个 64 位 的 唯一 标识 符 UID 来 标识 节点 的 
位 置 ,用 散 列 的 方式 映射 到 相应 的 节点 上 ,以 减少 延迟 。Trinity 可 以 并 发 地 执行 
PageRank、 最 短路 径 、 随 机 游 走 等 计算 。@ 支 持 批 处 理 : Trinity 支持 大 型 在 线 查询 和 离线 
批 处 理 ,并 且 支 持 同步 和 不 同步 批 处 理 计算 。 

面 对 大 数据 ,各 种 处 理 系统 层出不穷 ,各 具 特 色 , 总 的 来 说 ,呈现 三 种 发 展 趋势 。Q@ 数 据 
处 理 引擎 专用 化 。 为 了 降低 成 本 ,提高 效能 ,大 数据 系统 需要 摆脱 传统 体系 ,转向 专用 化 架 
构 。 目 前 多 数 企业 都 在 基于 开源 系统 开发 面向 典型 应 用 的 大 规模 、 高 通 量 、 低 成 本 、 强 扩展 
的 专用 系统 。@ 数 据 处 理 平台 的 多 样 化 。 在 Hadoop 系统 被 广 为 接 受 的 基础 上 ,出 现 了 
Spark,Scibe,Flume,Kafka,Storm 等 ,这 些 系 统 并 不 是 取代 Hadoop ,而 是 丰富 了 Hadoop 
生态 系统 ,使 生态 系统 更 多 样 ,更 完整 。@ 数 据 计 算 实 时 化 。 大 数据 背景 下 ,实时 系统 是 对 
批 处 理 系统 的 重要 补充 ,把 PB 级 数据 处 理 降 到 了 秒 级 。 


1.3 大 数据 带 来 的 挑战 


1. 如 何 去 重 降 噪 

大 数据 往往 来 源 于 不 同 的 领域 和 业务 部 门 ,它们 源源 不 断 地 生产 着 动态 的 数据 流 ,这 些 
大 数据 中 常常 包含 着 不 同形 态 的 元 余 和 噪声 。 这 些 元 余 产 生 主要 有 两 个 方面 的 原因 : 首 
先 , 不 同 的 领域 和 部 门 在 业务 上 往往 存在 交叉 现象 ,他 们 产生 的 数据 常常 会 有 相同 的 数据 ， 
从 而 造成 数据 的 绝对 宛 余 ; 其 次 ,对 事物 描述 粒度 过 于 精细 ,在 生产 和 生活 中 产生 的 数据 就 
形成 了 相对 的 元 余 。 而 噪声 的 产生 主要 来 源 于 数据 采样 算法 的 缺陷 和 设备 的 故障 ,信息 的 
碎片 化 也 是 造成 噪声 的 另 一 个 原因 ,并 且 有 逐渐 发 展 的 趋势 。 比 如 , 随 着 微 博 、 微 信 等 社交 
网 络 的 流行 ,其 间 传 输 的 信息 一 般 比 较 简短 ,呈现 碎片 化 的 趋势 。 要 理解 其 含义 ,需要 结合 
上 下 文 .交流 环境 等 对 其 进行 扩充 ,然而 不 论 利 用 内 部 上 下 文 数据 ,还 是 外 部 数据 ,都 会 产生 
大 量 的 噪声 。 宛 余 和 噪声 严重 影响 着 大 数据 的 质量 ,影响 着 大 数据 处 理 与 分 析 的 效率 。 因 
此 ,如 何 去 重 降 噪 将 是 一 直 伴随 大 数据 研究 的 一 个 基础 而 又 重要 的 问题 。 
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2 大 数据 的 复杂 性 

大 数据 的 复杂 性 包括 数据 类 型 的 复杂 性 .数据 结构 的 复杂 性 和 数据 内 在 模式 的 复杂 人 性。 

(1) 数据 类 型 的 复杂 性 。 随 着 人 类 生产 ,生活 领域 的 扩大 和 信息 技术 的 发 展 ,人 们 采集 
数据 的 途径 会 不 断 地 增加 ,对 事物 的 描述 正 向 精细 化 方向 发 展 ,导致 数据 类 型 不 断 增多 , 随 
着 时 间 的 推移 ,数据 类 型 的 格式 还 在 不 断 地 变化 着 。 如 何 扫 清 大 数据 处 理 的 障碍 ,研究 推广 
不 与 具体 平台 相关 的 格式 将 是 未 来 研究 的 方向 之 一 。 

(2) 数据 结构 的 复杂 性 。 传 统 上 处 理 的 数据 都 是 结构 化 的 ,能 够 被 存储 到 关系 型 数据 
库 中 ,但 是 随 着 生产 .生活 方式 的 变化 , 非 结构 化 的 数据 已 经 成 为 大 数据 构成 的 主流 。 如 社 
交 网 络 、 物 联网 ,移动 计算 等 技术 产生 了 大 量 的 非 结构 化 数据 ,包括 文本 、 图 形 、 视 频 等 。 非 
结构 化 数据 的 结构 是 凌乱 易 变 的 ,并 且 包含 更 多 的 无 用 信息 ,这 给 数据 分 析 与 挖掘 带 来 了 更 
大 的 挑战 。 

C3) 数据 表示 方式 的 复杂 性 。 随 着 数据 规模 的 扩大 ,以 及 数据 类 型 和 结构 的 复杂 化 , 数 
据 的 表示 方法 也 变 得 更 加 复杂 。 要 想 有 效 利 用 数据 并 挖掘 其 中 的 信息 或 知识 ,必须 找到 最 
合适 的 数据 表示 方法 。 研 究 既 有 效 又 简易 的 数据 表示 方法 是 处 理 大 数据 必须 解决 的 技术 难 
题 之 一 。 

3. 大 数据 的 不 确定 性 

在 处 理 数据 时 ,总 是 希望 数据 是 确定 的 ,然而 ,在 现实 世界 中 ,许多 事物 的 属性 是 不 确定 
的 ,因此 而 产生 的 数据 也 是 不 确定 的 。 不 确定 的 数据 是 广泛 存在 的 ,并 且 表 现形 式 多 样 ,在 
大 数据 的 演化 过 程 中 也 伴随 着 不 确定 性 。 比 如 ,在 大 选中 中 间 选 民 的 态度 就 难以 确定 , 像 天 
气 、 突 发 事件 等 都 会 影响 他 们 的 态度 。 在 处 理 不 确定 的 大 数据 时 ,要 求人 们 在 数据 的 收集 、 
存储 、 建 模 、 分 析 等 各 个 环节 上 都 要 有 新 的 方法 来 应 对 。 


4 大 数据 存储 处理、 转 输 过 程 中 的 能 源 消耗 
大 数据 在 存储 、 处 理 、 转 输 的 过 程 中 需要 用 到 庞大 的 集群 ,这 么 庞大 集群 的 运转 消耗 的 
能 源 不 可 小 虎 , 如 何 降低 这 个 过 程 中 能 源 的 消耗 将 是 未 来 需要 重点 研究 的 问题 。 


5. 跨 领 域 的 大 数据 处 理 方法 与 工具 的 研究 

大 数据 技术 在 各 领域 各 行业 都 有 应 用 ,这 就 决定 了 它 的 多 样 性 和 灵活 性 ,在 研究 大 数据 
的 处 理 方法 与 工具 时 ,必须 结合 其 所 应 用 的 领域 特点 ,研究 适合 该 领域 的 科研 分 析 方 法 与 工 
具 将 是 大 数据 技术 发 展 过 程 中 需要 解决 的 问题 。 跨 领域 的 数据 分 析 , 才 有 可 能 产生 更 大 的 
价值 和 智慧 ,但 是 跨 领域 的 数据 共享 仍然 存在 大 量 的 壁垒 ,如 何 吸取 其 他 领域 的 原理 和 方 
法 ,进行 数据 的 有 效 整合 ,将 是 以 后 研究 的 一 个 方向 。 


1.4 大 数据 的 研究 与 发 展 方向 


大 数据 的 概念 起 源 和 发 展 于 美国 ,并 向 全 球 扩展 , 必 将 给 我 国 未 来 的 科技 与 经 济 发 展 带 
来 深远 影响 。 根 据 IDC 统计 ,目前 在 全 球 的 数据 量 的 比例 为 : 美国 32% 西欧 19% 中国 
13% ,预计 到 2020 年 中 国 将 产生 全 球 21% 的 数据 。 我 国 是 仅 次 于 美国 的 数据 大 国 ,而 我 国 
大 数据 方面 的 研究 尚 处 在 起 步 阶段 ,如 何 开发 利用 保护 好 大 数据 这 一 重要 的 战略 资源 ,是 
当前 我 国 或 待 解决 的 问题 。 图 1-3 为 我 国 互联 网 行业 与 电信 行业 大 数据 应 用 场景 的 统计 
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图 1-3 互联 网 行业 与 电信 行业 大 数据 应 用 场景 统计 信息 


RE. 
大 数据 未 来 的 发 展 趋势 从 以 下 4 个 方面 进行 。 


1 开放 源 代码 

大 数据 获得 动力 ,关键 在 于 开放 源 代码 ,帮助 分 解 和 分 析 数 据 。Hadoop 和 NoSQL 数 
据 库 便 是 其 中 的 赢家 ,它们 让 其 他 技术 研发 商 望 而 却步 .处境 很 被 动 。 毕 竞 , 人 们 需要 清楚 
怎样 创建 一 个 平台 , 既 能 解 开 所 有 的 数据 ,克服 数据 相互 独立 的 障碍 ,又 能 将 数据 重新 上 锁 。 


2 市场 细 分 

今 , 许 多 通用 的 大 数据 分 析 平 台 已 投入 市 场 ,但 仍 无 法 满足 市 场 的 需求 ,期 望 更 多 地 
可 以 运用 在 特殊 领域 的 大 数据 分 析 平 台 出 现 。 如 药物 创新 、 客 户 关系 管理 .应 用 性 能 的 监控 
和 使 用 。 若 市 场 逐 步 成 熟 ,在 通用 分 析 平 台 之 上 ,开发 特定 的 垂直 应 用 也 将 会 实现 。 但 现在 
的 技术 有 限 ,除非 考虑 利用 潜在 的 数据 库 技 术 作 为 通用 平台 (如 Hadoop、NoSQL)。 人 们 期 
望 更 多 特定 的 垂直 应 用 出 现 ,把 目标 定 为 特定 领域 的 数据 分 析 , 这 些 特定 领域 包括 航运 业 、 
销售 业 、 网 上 购物 .社交 媒体 用 户 的 情绪 分 析 等 。 同 时 ,其 他 公司 正在 研发 小 规模 分 析 引 擎 
的 软件 套件 。 比 如 ,社交 媒体 管理 工具 ,这 些 工 具 以 数据 分 析 作为 基础 。 


3. 关系 型 数据 与 非 关 系数 据 呈 现 融 合 的 趋势 

传统 的 数据 处 理 与 分 析 多 是 建立 在 关系 型 数据 库 基 础 上 的 。 关 系 型 数据 结构 简单 ,对 
事物 的 描述 精确 ,处 理 与 分 析 的 效率 非常 高 。 随 着 网 络 的 发 展 ,产生 了 越 来 越 多 的 非 结构 化 
数据 ,对 这 类 数据 ,关系 型 数据 库 已 经 无 能 为 力 了 。 而 MapReduce 计算 模型 在 处 理 大 数据 
时 在 扩展 性 、 容 错 性 上 明显 优 于 关系 型 数据 库 , 但 是 在 处 理 的 效率 和 准确 性 上 MapReduce 
模型 与 关系 型 数据 库 还 是 有 一 定 差距 的 。 关 系 型 数据 库 与 MapReduce 模型 各 有 所 长 ,如果 
将 它们 结合 起 来 ,而 不 是 割裂 开 , 必 将 对 高 效 地 处 理 大 数据 起 到 显著 的 促进 作用 。 


4 大 数据 的 预测 性 作用 日 益 凸 显 

大 数据 在 不 同 领域 ,对 不 同 的 用 户 都 会 产生 显著 的 效率 ,跳出 具体 的 案例 ,不 难 发 现 , 大 
数据 的 预测 作用 是 一 个 非常 重要 的 功能 ,比如 根据 气象 数据 预报 未 来 的 天 气 。 根 据 商品 的 
销售 信息 分 析 顾 客 的 喜好 ,从 而 估计 商品 未 来 的 销售 情况 ,制定 合适 的 营销 策略 。 由 已 知 预 
测 未 知 , 通 过 大 数据 可 以 提高 对 未 知 预测 的 可 靠 性 和 精准 性 ,这 是 人 类 一 个 重要 的 进步 。 


- - Ac @o 
Hadoop 简介 


在 讲 大 数据 之 前 必须 提 到 一 个 概念 一 一 云 计 算 ,社会 各 界 对 云 计 算 下 的 定义 各 不 相同 ， 
人 家 对 云 计 算 的 认识 也 各 不 相同 ,美国 国家 标准 与 技术 研究 院 (NIST) 下 的 定义 是 : 云 计算 
是 一 种 按 使 用 量 付费 的 模式 ,这 种 模式 提供 可 用 的 、 便 捷 的 、 按 需 的 网 络 访问 ,进入 可 配置 的 
计算 资源 共享 池 ( 资 源 包括 网 络 、 服 务 器 、 存 储 、 应 用 软件 、 服 务 ) ,这 些 资源 能 够 被 快速 提供 ， 
只 需 投入 很 少 的 管理 工作 ,或 与 服务 供应 商 进行 很 少 的 交互 。 云 计算 按照 其 服务 形式 可 以 
分 为 以 下 三 种 。@ 基 础 设施 即 服 务 (Infrastructure-as-a-Service,1aaS)。 消 费 者 通过 Internet 可 
以 从 完善 的 计算 机 基础 设施 获得 服务 。 例 如 ,硬件 服务 器 租用 。@ 平 台 即 服务 (Platform- 
as-a-Service,PaaS), PaaS 实际 上 是 指 将 软件 研发 的 平台 作为 一 种 服务 ,以 SaaS 的 模式 提 
交 给 用 户 。 因 此 ,PaaS 也 是 SaaS 模式 的 一 种 应 用 。 但 是 ,PaaS 的 出 现 可 以 加 快 SaaS 的 
发 展 ,尤其 是 加 快 SaaS 应 用 的 开发 速度 。 例 如 ,软件 的 个 性 化 定制 开发 。 四 软件 即 服务 
(Software-as-a-Service, SaaS) 。 它 是 一 种 通过 Internet 提供 软件 的 模式 ,用 户 无 须 购买 软 
件 , 只 需 向 提供 商 租 用 基于 Web 的 软件 ,就 可 以 管理 企业 经 营 活动 。 例 如 ,阳光 云 服 
务 器 。 

介绍 完 云 计算 ,下 面 再 介绍 一 下 大 数据 与 云 计 算 的 关系 ,如 图 2-1 所 示 。 从 技术 上 看 ， 
大 数据 与 云 计算 的 关系 就 像 一 枚 硬币 的 正 反 面 一 样 密 不 可 分 。 大 数据 必然 无 法 用 单 台 的 计 
算 机 进行 处 理 ,必须 采用 分 布 式 计 算 架 构 。 它 的 特色 在 于 对 海量 数据 的 挖掘 ,但 又 必须 依托 
云 计 算 的 分 布 式 处 理 、 分 布 式 数据 库 、 云 存储 和 虚拟 化 技术 。 


SaaS 分 布 式 数 据 挖掘 ) Mahout 

Pus i 分 布 式 处 理 | MapReduce ~ Jobkeeper 
| 分 布 式 数据 库 | HBase、 数 据 立方 
( 云 存储 I 虚拟 化 ) 
(4: HDFS, Estore 如 : VMware, Openstack } 


图 2-1 云 计 算 与 大 数据 的 关系 


Hadoop 作为 开源 的 云 计算 基础 架构 ,由 Apache 基金 会 开发 。 用 户 可 以 在 不 了 解 分 布 
式 底 层 细 节 的 情况 下 ,开发 分 布 式 程序 ,充分 利用 集群 的 威力 高 速 运算 和 存储 。 它 实现 了 一 
个 分 布 式 文件 系统 (Hadoop Distributed File System, HDFS) ,HDFS 具有 高 容错 性 的 特点 ， 
并 且 设 计 用 来 部 署 在 价格 低廉 的 硬件 上 ,为 海量 的 数据 提供 了 存储 。 它 实现 了 MapReduce 
计算 模式 ,为 海量 数据 计算 提供 了 支持 。 其 下 的 HBase 是 一 个 基于 列 存储 的 NoSQL 数据 
PE ,适合 于 非 结 构 化 数据 的 存储 。Hive Hadoop 下 的 一 个 数据 仓库 ,支持 类 似 于 SQL if 
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^i] ,操作 起 来 非常 简便 。 因 此 ,本 书 将 介绍 Hadoop 及 相关 的 实践 。 


2.1 Hadoop 项 目 起 源 


Google 之 所 以 成 为 一 家 在 搜索 引擎 领域 发 展 最 好 的 公司 之 一 ,是 有 其 原因 的 。 其 创始 
人 拉 里 。 佩 奇 和 谢 尔 盖 。 布 林 发 明了 PageRank 算法 ,依靠 该 算法 ,Google 提高 了 对 互联 网 
信息 的 搜 准 率 ,使 Google 发 展 壮大 起 来 。 当 然 ,Google 发 展 壮大 还 有 另 三 个 重要 的 因素 ， 
GFS 文件 系统 .MapReduce 计算 模型 .BigTable 数据 库 。 

搜索 引擎 面临 的 最 大 挑战 就 是 如 何 存储 来 源 于 互联 网 的 海量 非 结构 化 的 数据 。 为 了 应 
对 海量 数据 的 存储 问题 ,Google 的 两 位 创始 人 研制 了 独 有 的 分 布 式 文件 系统 (Google File 
System, GFS) ,该 文件 系统 运行 于 低 成 本 的 硬件 之 上 ,采用 多 副本 策略 有 效 地 规避 了 低 成 本 
硬件 的 故障 问题 。GFS 隐藏 了 下 层 的 分 布 式 技术 细节 ,为 用 户 提供 了 文件 系统 API 接口 ， 
用 户 可 以 透明 地 对 GFS 进行 访问 。Google 根据 系统 的 特点 一 一 需要 访问 超大 文件 .读数 
据 远 多 于 写 数据 .廉价 硬件 极 易 发 生 故 障 等 ,对 文件 系统 进行 优化 。 集 群 节点 分 为 两 类 : E 
控 节点 和 从 节点 。 主 控 节点 是 集群 的 管理 节点 ,在 逻辑 上 集群 中 只 有 一 个 主 控 节 点 , 主 控 节 
点 内 存储 着 文件 系统 的 元 数据 ,并 负责 从 节点 的 调度 与 管理 。 文 件 按 固定 大 小 的 块 进行 存 
储 , 默 认 是 64MB 大 小 。 

MapReduce 模型 包含 了 一 系列 的 并 行 处 理 、 容 错 处 理 、 本 地 化 运算 、 网 络 通信 以 及 负载 
均衡 等 技术 , 它 的 原理 是 这 样 的 : MapReduce 模型 采用 “分 而 治之 ”的 思想 ,把 对 大 数据 集 的 
操作 分 发 给 主 节点 管理 下 的 从 节点 共同 完成 ,通过 整合 各 从 节点 的 中 间 结 果 , 从 而 得 到 最 终 
结果 。MapReduce 模型 包括 两 个 函数 : Map 和 Reduce, Map 负责 把 任务 分 解 为 多 个 任 
务 ,Reduce 负责 把 分 解 后 的 多 个 任务 的 处 理 结果 汇总 起 来 。MapReduce 模型 处 理 的 数据 
必须 具有 这 样 的 特点 : 需要 处 理 的 数据 集 必须 可 以 分 解 成 许多 小 的 数据 集 , 而 且 每 个 小 数 
据 集 可 以 完全 并 行进 行 处 理 。 

Big Table 是 非 关系 的 数据 库 , 是 一 个 稀 政 的 ,分布 式 的 ,持久 化 存储 的 多 维度 排序 
Map. BigTable 的 设计 目的 是 可 靠 地 处 理 PB 级 别 的 数据 ,并 且 能 够 部 署 到 成 千 上 万 台 计 
算 机 上 。BigTable 已 经 实现 了 适用 性 广 、 可 扩展 、 高 性 能 和 高 可 用 性 等 几 个 目标 。BigTable 
已 经 在 超过 60 个 Google 的 产品 和 项 目 上 得 到 了 应 用 ,包括 Google Analytics、Google 
Finance, Orkut, Personalized Search, Writely 和 GoogleEarth。 这 些 产 品 对 BigTable 提出 
了 截然 不 同 的 需求 ,有 的 需要 高 乔 吐 量 的 批 处 理 , 有 的 则 需要 及 时 响应 ,快速 返回 数据 给 最 
终 用 户 。 它 们 使 用 的 BigTable 集群 的 配置 也 有 很 大 的 差异 ,有 的 集群 只 需要 几 台 服务 器 ， 
而 有 的 则 需要 上 千 台 服务 器 、 存 储 几 百 TB 的 数据 。 

BigTable 和 数据 库 在 很 多 方面 有 相似 之 处 , 它 使 用 了 数据 库 的 许多 实现 策略 。 
BigTable 和 数据 库 都 具备 可 扩展 性 和 高 性 能 .但 是 它们 提供 的 接口 却 不 完全 相同 ,BigTable 
不 支持 完整 的 关系 数据 模型 ;与 之 相反 ,BigTable 为 客户 提供 了 简单 的 数据 模型 ,利用 这 个 
模型 ,客户 可 以 动态 控制 数据 的 分 布 和 格式 ,用 户 也 可 以 自己 推测 底层 存储 数据 的 位 置 相关 
性 。 数 据 的 下 标 是 行 和 列 的 名 字 , 名 字 可 以 是 任意 的 字符 串 。BigTable 将 存储 的 数据 都 视 
为 字符 串 ,但 是 BigTable 本 身 不 去 解析 这 些 字符 串 ,客户 程序 通常 会 把 各 种 结构 化 或 者 半 
结构 化 的 数据 串 行 化 到 这 些 字符 串 中 。 通 过 仔细 选择 数据 的 模式 ,客户 可 以 控制 数据 的 位 
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置 相关 性 。 最 后 ,可 以 通过 BigTable 的 模式 参数 来 控制 数据 是 存放 在 内 存 中 ,还 是 存放 在 
硬盘 上 。 

BigTable 能 够 分 布地 并 发 处 理 数据 ,效率 极 高 。 在 规模 上 易于 扩展 ,支持 动态 伸缩 ;能 
够 处 理 PB 级 数据 ,因此 适合 于 处 理 海量 数据 。 因 为 使 用 了 备份 机 制 ,所 以 适合 于 部 署 在 廉 
价 设备 上 ;但 BigTable 只 适合 于 读 操 作 , 而 不 适合 于 写 操 作 。 正 因为 BigTable 的 这 些 特 
性 , 它 为 谷歌 底下 的 搜索 、 地 图 、 财 经 ,打印 以 及 社交 网 站 Orkut 视频 共享 网 站 YouTube 和 
博客 网 站 Blogger 等 业务 提供 了 技术 支持 。 

BigTable 是 非 关系 型 数据 库 , 但 是 却 沿用 了 很 多 关系 型 数据 库 的 术语 ,如 table GR), 
row( 行 ) .column( 列 ) 等 。 这 容易 让 读者 误 入 歧途 ,将 其 与 关系 型 数据 库 的 概念 对 应 起 来 ， 
从 而 难以 理解 。 

本 质 上 说 ,BigTable 是 一 个 键 值 (key-value) 映 射 。 按 作者 的 说 法 ,BigTable 是 一 个 稀 
芍 的 分 布 式 的 ,持久 化 的 、 多 维 的 排序 映射 。 

先 来 看 看 多 维 、 排 序 、 映 射 。BigTable 的 键 有 三 维 , 分 别 是 行 键 (row key)、 列 键 
(column key) #il ff [8] # (timestamp) ,如 图 2-2 所 示 。 行 键 和 列 键 都 是 字 节 串 , 时 间 蕉 是 
64 位 整 型 ,而 值 是 一 个 字 节 串 。 可 以 用 (row: string, column: string, time; int64)—string 
来 表示 一 条 键 值 对 记录 。 
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2-2 BigTable 数据 模型 图 


BigTable 的 行 关键 字 可 以 是 任意 的 字符 串 ,长度 不 超过 64KB。 这 个 字符 串通 常 是 一 
个 倒 排 的 域名 地 址 ,这样 做 的 好 处 是 使 相同 域名 的 网 页 能 够 连续 存储 。BigTable 的 表 会 根 
据 行 键 自动 划分 为 片 (tablet) , 片 是 负载 均衡 的 单元 。 最 初 表 都 只 有 一 个 片 , 但 随 着 表 不 断 
增 大 , 片 会 自动 分 裂 , 片 的 大 小 控制 在 100—200MB. 

列 是 第 二 级 索引 ,每 行 拥有 的 列 是 不 受 限制 的 ,可 以 随时 增加 或 减少 。 为 了 方便 管理 ， 
列 被 分 为 多 个 列 族 (column family, 是 访问 控制 的 单元 ) ,一 个 列 族 里 的 列 一 般 存 储 相同 类 
型 的 数据 。 一 行 的 列 族 很 少 变化 ,但 是 列 族 里 的 列 可 以 随意 添加 或 删除 。 列 键 按照 family: 
qualifier 格式 命名 。 如 :" contents:" 是 一 个 族 名 为 contents, 限定 词 为 空 的 列 关 键 字 ; 
"anchor:cnnsi. com" 和 "anchor:my. look. ca" 则 是 两 个 具有 相同 族 名 anchor, 而 限定 词 不 同 
的 列 关键 字 。 

时 间 截 是 第 三 级 索引 。BigTable 允许 保存 数据 的 多 个 版 本 ,版 本 区 分 的 依据 就 是 时 间 
Eo WAHT LA eH BigTable 赋值 ,代表 数据 进入 Big Table 的 准确 时 间 , 也 可 以 由 客户 端 赋 
值 。 数 据 的 不 同 版 本 按照 时 间 蕉 降序 存储 ,因此 先 读 到 的 是 最 新 版 本 的 数据 。 查 询 时 ,如 果 
只 给 出 行列 ,那么 返回 的 是 最 新 版 本 的 数据 ;如 果 给 出 了 行列 时 间 戳 ,那么 返回 的 是 时 间 小 
于 或 等 于 时 间 戳 的 数据 。 
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2.2 Hadoop 的 由 来 


2003 年 ,Google 发 表 了 一 篇 名 为 The Google File System 的 论文 ,论文 中 提出 了 一 种 
分 布 式 文件 系统 。Doug Cutting 正在 研发 一 个 开源 的 搜索 引擎 Nutch, 他 马上 意识 到 GFS 
可 以 帮助 他 解决 搜索 引擎 抓 取 网 页 和 建立 索引 产生 的 大 文件 的 存储 问题 ,在 此 论文 的 基础 
之 上 ,Doug Cutting 写 了 一 个 开源 的 分 布 式 文件 系统 一 一 Nutch Distributed File System, 
NDFS 分 布 式 文件 系统 。 

2004 年 ,Google 发 表 了 MapReduce: Simplified Data Processing on Large Clusters 
的 论文 ,该 文中 提出 了 MapReduce 模式 ,该 模式 解决 了 大 型 分 布 式 并 行 计算 的 问题 ,使 分 布 
式 并 行 计算 程序 的 编写 变 得 简单 而 高 效 。 

2005 年 年 初 ,为 了 支持 Nutch 搜索 引擎 项 目 , Nutch 的 开发 者 基于 Google 发 布 的 
MapReduce 报告 ,在 Nutch 上 开发 了 一 个 可 工作 的 MapReduce 应 用 。 

2005 年 年 中 ,所 有 主要 的 Nutch 算法 被 移植 到 使 用 MapReduce 和 NDFS (Nutch 
Distributed File System) 来 运行 。 

2006 ^£ 1 月 ,Doug Cutting 加 入 雅虎 , Yahoo 提供 一 个 专门 的 团队 和 资源 将 Hadoop 
发 展 成 一 个 可 在 网 络 上 运行 的 系统 。 

2006 年 2 月 ,Apache Hadoop 项 目 正 式 启动 以 支持 MapReduce 和 HDFS 的 独立 发 展 。 

2007 年 ,百度 开始 使 用 Hadoop 做 离线 处 理 , 目 前 差不多 80% ff] Hadoop 集群 用 作 日 
志 处 理 。 

2007 年 ,中 国 移动 开始 在 “大 云 ”研究 中 使 用 Hadoop 技术 ,规模 超过 1 000 台 。 

2008 年 ,淘宝 开始 投入 研究 基于 Hadoop 的 系统 一 一 云梯 ,并 将 其 用 于 处 理 电子 商务 
相关 数据 。 云 梯 1 的 总 容量 大 概 为 9. 3PB, 包 含 了 1 100 台 计 算 机 ,每 天 处 理 约 18 000 道 作 
业 , 扫 描 500TB 数据 。 

2008 年 1 月 ,Hadoop 成 为 Apache 顶级 项 目 。 

2008 年 2 月 ,Yahoo 宣布 其 搜索 引擎 产品 部 署 在 一 个 拥有 1 万 个 内 核 的 Hadoop 集 
REL. 

2008 年 7 月 ,Hadoop 打破 1TB 数据 排序 基准 测试 记录 。Yahoo 的 一 个 Hadoop 集群 
用 209 秒 完成 1TB 数据 的 排序 , 比 上 一 年 的 纪录 保持 者 保持 的 297 秒 快 了 将 近 90 秒 。 

2009 年 3 月 ,Cloudera 推出 CDH (Cloudera's Distribution including Apache Hadoop) 

台 , 完 全 由 开放 源码 软件 组 成 ,目前 已 经 进入 第 4 版 。 

2009 年 5 月 ,Yahoo 的 团队 使 用 Hadoop 对 1TB 的 数据 进行 排序 只 花 了 62 秒 的 时 间 。 

2009 年 7 月 ,Hadoop Core 项 目 更 名 为 Hadoop Common, 

2009 年 7 月 ,MapReduce 和 Hadoop Distributed File System(CHDFS) 成 为 Hadoop 项 
目的 独立 子 项 目 。 

2009 年 7 月 ,Avro 和 Chukwa 成 为 Hadoop 新 的 子 项 目 。 

2010 年 5 月 .Avro 脱离 Hadoop 项 目 , 成 为 Apache 顶级 项 目 。 

2010 年 5 月 ,HBase 脱离 Hadoop 项 目 , 成 为 Apache 顶级 项 目 。 

2010 年 5 IBM 提供 了 基于 Hadoop 的 大 数据 分 析 软 件 一 一 InfoSphere BigInsights， 
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包括 基础 版 和 企业 版 。 

2010 年 9 月 ,Hive(Facebook) 脱 离 Hadoop, RX Apache 顶级 项 目 。 

2010 年 9 月 ,Pig 脱离 Hadoop ,成 为 Apache 顶级 项 目 。 

2011 年 1 月 ,ZooKeeper 脱离 Hadoop ,成 为 Apache 顶级 项 目 。 

2011 年 3 月 ,Apache Hadoop 获得 Media Guardian Innovation Awards。 

2011 年 3 月 , Platform Computing 宣布 在 它 的 Symphony 软件 中 支持 Hadoop 
MapReduce API。 

2011 年 5 月 ,Mapr Technologies 公司 推出 分 布 式 文件 系统 和 MapReduce 引擎 一 
MapR Distribution for Apache Hadoop. 

2011 Æ 5 H.HCatalog 1. 0 £ ti. Zm HA H Hortonworks 在 2010 4E 3 月 提出 ， 
HCatalog 主要 用 于 解决 数据 存储 、 元 数据 的 问题 ,主要 解决 HDFS 的 瓶颈 , 它 提 供 了 一 个 
地 方 来 存储 数据 的 状态 信息 ,这 使 得 数据 清理 和 归档 工具 可 以 很 容易 地 进行 处 理 。 

2011 年 4 月 ,SGI(Silicon Graphics International) 基 于 SGI Rackable 和 CloudRack 服 
务 器 产品 线 提供 Hadoop 优化 的 解决 方案 。 

2011 年 5 月 ,EMC 为 客户 推出 一 种 新 的 基于 开源 Hadoop 解决 方案 的 数据 中 心 设 
备 一 一 GreenPlum HD, 以 助 其 满足 客户 日 益 增 长 的 数据 分 析 需 求 。Greenplum 是 EMC 在 
2010 年 7 月 收购 的 一 家 开源 数据 仓库 公司 。 

2011 年 5 月 ,在 收购 了 Engenio 之 后 ,NetApp 推出 与 Hadoop 应 用 结合 的 产品 E5400 
存储 系统 。 

2011 年 6 月 ,Calxeda 公司 (之 前 公司 的 名 字 是 Smooth-Stone) 发 起 了 “开拓 者 行动 ”, 一 
个 由 10 家 软件 公司 组 成 的 团队 将 为 Calxeda 即将 推出 的 基于 ARM 芯片 的 服务 器 提供 支 
持 , 并 为 Hadoop 提供 低 功 耗 服 务 器 技术 。 

2011 年 6 H ,数据 集成 供应 商 Informatica 发 布 了 其 旗舰 产品 ,产品 设计 初衷 是 处 理 当 
今 事务 和 社会 媒体 所 产生 的 海量 数据 ,同时 支持 Hadoop. 

2011 年 7 月 ,Yahoo 和 硅谷 风险 投资 公司 Benchmark Capital 创建 了 Hortonworks 公 
司 , 旨 在 让 Hadoop 更 加 鲁 棱 ( 可 靠 ), 并 让 企业 用 户 更 容易 安装 \ 管 理 和 使 用 Hadoop。 

2011 年 8 月 ,Cloudera 公布 了 一 项 有 益 于 合作 伙伴 生态 系统 的 计划 一 一 创建 一 个 生态 
系统 ,以 便 硬 件 供应 商 、 软 件 供应 商 以 及 系统 集成 商 可 以 一 起 探索 如 何 使 用 Hadoop 更 好 地 
洞察 数据 。 

2011 4E 8 月 ,Dell 与 Cloudera 联合 推出 Hadoop 解决 方案 一 一 Cloudera Enterprise. 
Cloudera Enterprise 基于 Dell PowerEdge C2100 机 架 服 务 器 以 及 Dell PowerConnect 6248 
以 太 网 交换 机 。 

2011 4E 12 月 ,在 Hadoop 0. 20. 205 版 的 基础 上 发 布 了 Hadoop 1.0.0 版。 

2011 年 10 月 ,Hadoop 推出 了 新 一 代 架 构 的 Hadoop 0. 23. 0 测试 版 ,该 版 本 最 终 发 展 
成 为 Hadoop 2. 0 版 本 , 即 新 一 代 Hadoop 系统 YARN. 

2012 年 3 月 ,在 Hadoop 1.0 版 的 基础 上 发 布 Hadoop 1. 2.1 稳定 版 。 

2013 年 10 月 ,Hadoop 2. 2.0 版 本 成 功 发 布 。 

2014 年 11 月 ,Hadoop 已 经 发 展 到 了 2. 6. 0 版 本 。 

说 了 这 么 长 时 间 的 Hadoop,Hadoop 到 底 是 什么 意思 呢 ? Hadoop 这 个 名 字 不 是 一 个 
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缩写 ,而 是 一 个 虚构 的 名 字 。 该 项 目的 创建 者 Doug Cutting 解释 Hadoop 名 字 的 来 源 说 : 

“这 个 名 字 是 我 孩子 给 一 个 棕 黄色 的 大 象 玩具 起 的 名 字 。 我 的 命名 标准 就 是 简短 ,容易 发 音 

和 拼写 ,没有 太 多 的 意义 ,并 且 不 会 被 用 于 别处 。 小 孩子 恰恰 是 这 方面 的 高 手 。” 


2.3 Hadoop 核心 组 件 及 相关 项 目 简介 


随 着 Hadoop 版 本 的 不 断 更 新 ,Hadoop 自身 的 功能 不 断 强大 ,相关 的 项 目 陆 续 加 入 进 


来 ,现在 已 经 形成 庞大 的 较为 完善 的 生态 系统 ,如 图 2-3 Bron. 
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图 2-3 Hadoop 生态 系统 


Hadoop 是 一 个 开源 的 、 可 靠 的 .可 扩展 的 、 分 布 式 计 算 系 统 , 该 框架 能 够 在 计算 机 集群 
中 用 简单 的 计算 模式 处 理 大 规模 数据 集 。 集 群 能 从 单个 服务 器 扩展 到 数 千 个 ,每 个 服务 器 
都 可 以 提供 本 地 计算 和 存储 ,与 依赖 硬件 提供 高 可 用 性 相 比 ,Hadoop 在 应 用 层 检 测 并 处 理 
故障 ,保障 了 集群 的 高 可 用 性 。Hadoop 项 目 由 以 下 四 个 核心 组 件 组 成 。 


1. Hadoop Common 模块 

Common 模块 是 一 套 为 其 他 Hadoop 模块 提供 底层 支持 和 常用 工具 的 类 库 及 API 编 
程 接 口 。 在 该 模块 中 提供 的 底层 服务 包括 : Hadoop 抽象 文件 系统 File System、 远 程 过 程 
调用 RPC. 数据 压缩 与 解压 缩 、 系 统 配置 工具 Configuration 以 及 序列 化 机 制 。 从 Hadoop 
0.21 版 本 开始 , Hadoop 项 目的 Core 模块 更 名 为 Hadoop Common. 并且 HDFS, 
MapReduce 模块 从 Common 中 分 离 出 来 成 为 独立 的 子 项 目 。 
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2. HDFS 一 一 分 布 式 文件 系统 
Doug Cutting 根据 Google 发 布 的 学 术 论 文 The Google File System ,研究 得 到 了 今天 
HDFS 的 雏形 ,实现 了 文件 的 分 布 式 存储 。 因 其 是 在 Hadoop 之 上 的 分 布 式 文件 系统 
(Distributed File System) ,因此 被 称 为 HDFS。HDFS 把 节点 分 成 两 类 : NameNode 和 
DataNode。NameNode 存储 着 集群 的 元 数据 ,DataNode 中 存储 着 真正 的 数据 。 客 户 端 首 
先 访问 NameNode, 根 据 NameNode 中 的 元 数据 到 DataNode 中 进行 数据 的 读 写 。 这 些 读 
写 操 作对 客户 端的 用 户 来 说 是 透明 的 ,与 普通 的 文件 系统 API 没有 区 别 。 
HDFS 具有 如 下 关键 性 特点 。 
。 存储 容量 大 。HDFS 的 总 数据 存储 量 可 达 PB 级 ,并 且 容 量 随 着 集群 中 节点 数 的 增 
加 而 线性 增长 。HDFS 中 的 文件 也 可 以 很 大 ,典型 的 文件 大 小 可 以 是 从 GB 级 到 
TB 级 的 。 
分 布 式 存储 。HDFS 中 存储 的 大 文件 被 框架 自动 分 布 到 多 个 节点 上 存储 ,文件 的 大 
小 可 以 大 于 集群 中 一 个 物理 磁盘 的 容量 ,客户 端 在 读 写 文件 时 不 用 关心 数据 的 具体 
存储 位 置 。 
高 容错 性 。Hadoop 是 建立 在 通用 商业 服务 器 上 的 ,出 现 故障 是 常态 ,因此 ,其 设计 
目标 就 是 要 快速 自动 地 恢复 故障 。HDFS 通过 自动 维护 多 个 数据 副本 和 在 故障 发 
生 时 自动 重新 布置 逮 辑 来 实现 高 可 靠 性 。NameNode 和 DataNode 上 都 部 署 了 周密 
的 错误 检测 和 自动 恢复 机 制 。 对 大 规模 集群 ( 几 千 个 节点 ) 来 说 ,每 天 都 会 有 节点 失 
效 。 集 群 一 般 能 很 快 将 失效 节点 上 的 Block 副本 在 其 他 DataNode 上 重新 创建 
出 来 。 
。 高 吞吐 量 。 应 用 程序 通过 流 方式 访问 HDFS 中 的 数据 。HDFS 是 批 处 理 模式 设计 
的 , 它 强 调 高 吞吐 量 ,而 不 是 低 延 迟 ,.HDFS 为 高 乔 吐 量 做 了 应 用 优化 。 
。 高 可 扩展 性 。HDFS 无 须 停机 扩容 ,而 是 动态 扩容 ,并 且 系 统 的 计算 和 存储 能 力 能 
够 随 着 集群 节点 数 的 增加 而 线性 增长 。 
* 负载 均衡 能 力 。HDFS 能 够 在 运行 时 根据 各 个 数据 存储 节点 的 可 用 存储 容量 变化 
和 实际 负载 情况 动态 调整 数据 在 多 个 节点 上 的 分 布 , 即 具有 一 定 的 负载 均衡 能 力 。 


3. MapReduce 一 一 并 行 计算 框架 

Hadoop 的 MapReduce 框架 是 根据 Google 的 论文 MapReduce: Simplified Data 
Processing on Large Clusters ,研究 后 开源 实现 的 。MapReduce 能 够 计算 的 任务 必须 具有 
这 样 的 特点 : 一 个 大 任务 可 以 被 分 解 为 多 个 子 任务 , 且 这 些 子 任务 相对 独立 ,彼此 之 间 不 会 
有 牵制 ,可 以 并 行进 行 处 理 , 待 并 行 处 理 完 这 些 子 任务 后 ,大 任务 也 随 之 完成 。 如 频率 统计 、 
倒 排 索引 的 构建 等 。 

MapReduce 模型 已 经 把 复杂 的 系统 层 细节 隐藏 了 起 来 ,程序 员 不 需要 考虑 数据 分 布 存 
储 管理 、 数 据 分 发 .数据 通信 与 同步 ,计算 结果 的 收集 等 细节 问题 ,程序 员 只 需要 描述 计算 什 
么 ,至 于 怎么 计算 就 交 由 系统 的 执行 框架 处 理 。MapReduce 编程 模型 由 两 个 阶段 完成 : 
Map 阶段 和 Reduce 阶段 。 用 户 只 需 编写 map() 和 reduce() 两 个 函数 , 即 可 完成 分 布 式 程 
Frizgit. MapQ RUI <key. value> xt (EW fi A ,产生 一 系列 的 二 key, value 之 对 作为 中 间 
结果 输出 ,MapReduce 框架 会 自动 把 这 些 中 间 数 据 按照 key 值 进行 分 区 , 且 key 值 相同 的 
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数据 会 被 交 给 同一 个 reduceO 函数 处 理 。Reduce() 函数 输入 中 间 结 果 , 经 过 合并 后 ,产生 
一 系列 二 key,value 二 对 作为 最 终结 果 输 出 。 
MapReduce 架构 下 ,分 为 Client,JobTracker, TaskTracker, Client 用 于 提交 用 户 编写 
的 MapReduce 程序 ;JobTracker 节点 主要 负责 资源 监控 和 作业 调度 ;TaskTracker 节点 会 
周期 性 地 通过 Heartbeat 将 本 节点 资源 的 使 用 情况 和 任务 的 运行 进度 汇报 给 JobTracker， 
同时 接收 JobTracker 发 送 过 来 的 命令 执行 相应 的 操作 。 
4 YARN 一 一 作业 调度 及 集群 资源 管理 框架 
YARN 是 Yet Another Resource Negotiator 的 缩写 , 它 在 Hadoop 1. 0 基础 上 衍化 而 
来 的 , 它 具 有 比 Hadoop 1.0 更 为 先进 的 理念 和 思想 ,充分 吸收 了 Hadoop 1. 0 的 优势 ,并 增 
加 了 很 多 的 特点 和 改进 。 可 以 认为 是 第 二 版 的 MapReduce。YARN 的 目标 已 经 不 再 是 局 
限于 支持 MapReduce 一 种 计算 框架 ,而 是 朝 着 多 种 框架 进行 统一 管理 的 方向 发 展 。 在 
YARN 上 可 以 运行 MapReduce、Spark、Storm、S4、MPI 等 。YARN 将 JobTracker 的 资源 
管理 和 作业 调度 、 监 控 分 成 两 个 独立 的 进程 : ResourceManager(RM) 和 ApplicationMaster 
(AM) ,RM 是 系统 中 将 资源 分 配给 各 个 应 用 的 最 终 决 策 者 。AM 实际 上 是 一 个 具体 的 框架 
库 , 它 的 任务 是 与 RM 协商 获取 应 用 所 需 的 资源 ,以 完成 执行 和 监控 Task 的 任务 。 基 于 
YARN 的 共享 集群 模式 具有 以 下 优点 。 
。 资源 利用 率 高 。 
。 运营 成 本 低 。 
。 数据 共享 。 
5. Hadoop 相关 项 目 简 介 
1) Ambari 一 一 Hadoop 管理 平台 
Ambari 是 Hortonworks 公司 主导 的 第 一 个 开源 实现 的 Hadoop 管理 平台 ,是 一 种 基于 
Web 的 工具 ,支持 Hadoop 集群 的 供应 \ 管 理 和 监控 。 
项 目地 址 : http://ambari. apache. org. 
2) Avro 一 一 数据 序列 化 系统 
Avro 是 一 个 基于 二 进 制 数据 传输 的 高 性 能 中 间 件 ,可 以 做 到 将 数据 进行 序列 化 ,适用 
F 远程 或 本 地 大 批量 数据 交互 。 
项 目地 址 : http://avro. apache. org. 
3) Cassandra 一 一 键 值 对 数据 库 系 统 
Apache Cassandra 是 一 套 开 源 分 布 式 数 据 库 管 理 系统 。 它 最 初 由 Facebook 开发 ,用 于 
储存 特别 大 的 数据 。 
Cassandra 是 一 个 混合 型 的 非 关 系 的 数据 库 , 类 似 于 Google 的 BigTable。Cassandra 
的 主要 特点 就 是 它 不 是 一 个 数据 库 ,而 是 由 一 堆 数据 库 节 点 共同 构成 的 一 个 分 布 式 网 络 服 
务 ,对 Cassandra 的 一 个 写 操作 ,会 被 复制 到 其 他 节点 上 去 ,对 Cassandra 的 读 操作 ,也 会 被 
路 由 到 某 个 节点 上 面 去 读 取 。 对 一 个 Cassandra 群集 来 说 ,扩展 性 能 是 比较 简单 的 事情 ,只 
管 在 集群 里 面 添加 节点 就 可 以 了 。 
项 目地 址 : http://cassandra. apache. org. 
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4) Chukwa 

Chukwa 是 一 个 开源 的 用 于 监控 大 型 分 布 式 系统 的 数据 收集 系统 。 这 是 构建 在 
Hadoop 的 HDFS 和 MapReduce 框架 之 上 的 ,继承 了 Hadoop 的 可 伸缩 性 和 和 鲁 棒 性 。 
Chukwa 还 包含 了 一 个 强大 和 灵活 的 工具 集 , 可 用 于 展示 ,监控 和 分 析 已 收集 的 数据 。 

项 目地 址 : http://chukwa. apache. org. 

5) HBase 一 一 分 布 式 数据 库 系统 

HBase 是 一 个 开源 的 非 关 系 型 分 布 式 数据 库 (NoSQL) , 它 参 考 了 谷歌 的 BigTable 建 
模 ,实现 的 编程 语言 为 Java。 它 是 Apache 软件 基金 会 Hadoop 项 目的 一 部 分 ,运行 于 
HDFS 文件 系统 之 上 ,为 Hadoop 提供 类 似 于 BigTable 规模 的 服务 。HBase 在 列 上 实现 了 
BigTable 论文 中 提 到 的 压缩 算法 、 内 存 操 作 和 布尔 过 滤器 。HBase 的 表 能 够 作为 
MapReduce 任务 的 输入 和 输出 ,可 以 通过 Java API 来 存 取 数据 ,也 可 以 通过 REST, Avro 
或 者 Thrift 的 API 来 访问 。HBase 虽然 性 能 有 显著 的 提升 ,但 还 不 能 直接 取代 SQL 数据 
库 。 现 今 它 已 经 应 用 于 多 个 数据 驱动 型 网 站 。 

项 目地 址 : http://hbase. apache. org. 

6) Hive 一 一 分 布 式 数据 仓库 管理 工具 

Hive 是 一 个 基于 Hadoop 的 数据 仓库 管理 工具 ,可 以 将 结构 化 的 数据 文件 映射 为 一 张 
数据 库 表 ,并 提供 完整 的 SQL 查询 功能 ,可 以 将 SQL 语句 转换 为 MapReduce 任务 进行 运 
行 。 其 优点 是 学 习 成 本 低 , 可 以 通过 类 SQL 语句 快速 实现 简单 的 MapReduce 统计 ,不 必 开 
发 专门 的 MapReduce 应 用 ,十 分 适合 数据 仓库 的 统计 分 析 。 

Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 。 它 提供 了 一 系列 的 工具 ,可 以 用 来 进 
行 数据 提取 转化 加 载 (ETL) ,这 是 一 种 可 以 存储 、 查 询 和 分 析 存 储 在 Hadoop 中 的 大 规模 数 
据 的 机 制 。Hive 定义 了 简单 的 类 SQL 查询 语言 , 称 为 HQL, 它 允许 熟悉 SQL 的 用 户 查 询 
数据 。 同 时 ,这 个 语言 也 允许 熟悉 MapReduce 开发 者 开发 自 定义 的 Mapper 和 Reducer 来 
处 理 内 建 的 Mapper 和 Reducer 无 法 完成 的 复杂 的 分 析 工 作 。 

用 户 接口 主要 有 三 个 : CLI、Client 和 WUI。 其 中 最 常用 的 是 CLI、CLI 启动 时 ,会 同 
时 启动 一 个 Hive 副本 ,WUI 是 通过 浏览 器 访问 Hive。 

Hive 没有 专门 的 数据 存储 格式 ,也 没有 为 数据 建立 索引 ,用 户 可 以 非常 自由 地 组 织 
Hive 中 的 表 , 只 需要 在 创建 表 时 设置 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 , Hive 就 可 以 解 
析 数 据 。 

Hive 中 所 有 的 数据 都 存储 在 HDFS 中 , Hive 中 包含 以 下 数据 模型 : 表 (Table) ,外 部 
表 (External Table) ,分 区 (Partition) , 桶 (Bucket) 。 

项 目地 址 : http://hive. apache. org. 

7) Mahout 一 一 数据 分 析 挖掘 工具 库 

Mahout 是 Apache 下 的 一 个 开源 项 目 ,提供 一 些 可 扩展 的 机 器 学 习 领 域 经 典 算法 的 实 
现 , 旨 在 帮助 开发 人 员 更 方便 快捷 地 创建 智能 应 用 程序 。Mahonut 包含 许多 实现 ,包括 聚 
类 、 分 类 、 推 荐 过 滤 .频繁 子 项 挖掘 等 。Mahonut 提供 了 以 下 一 些 功能 。 
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支持 MapReduce 的 聚 类 实现 包括 K-means BE K-means,Canopy, Dirichlet 和 Mean- 
Shift; Distributed Naive Bayes 和 Complementary Naive Bayes 分 类 实现 ;针对 进化 编程 的 
分 布 式 适用 性 功能 ;Matrix 和 矢量 库 等 。 

项 目地 址 : http://mahout. apache. org。 

8) Hama 一 一 科学 计算 工具 

Hama 是 基于 BSP(Bulk Synchronous Parallel, 大 同步 并 行 模型 ) 计 算 技术 的 并 行 计算 
框架 ,是 对 Google 的 Pregel 的 开源 实现 ,用 于 大 量 的 科学 计算 (比如 矩阵、 图 论 、 网 络 等 ) 。 
BSP 计算 技术 最 大 的 优势 是 加 快 迭 代 , 在 解决 最 小 路 径 等 问题 中 可 以 快速 得 到 可 行 解 , 节 
点 之 间 会 有 交互 ,计算 过 程 自 由 且 可 高 度 定制 。 同 时 ,Hama 提供 简单 的 编程 ,比如 flexible 
模型 .传统 的 消息 传递 模型 ,而 且 兼容 很 多 分 布 式 文件 系统 ,比如 HDFS、HBase 等 。 用 户 可 
以 使 用 现 有 的 Hadoop 集群 进行 Hama BSP。 目 前 Hama 最 新 的 版 本 为 2014 年 3 月 13 H 
发 行 的 0.7.0。 

项 目地 址 : http://hama. apache. org. 

9) Pig 一 一 大 规模 数据 分 析 平 台 

Pig 是 Yahoo 捐献 给 Apache 基金 会 的 一 个 项 目 , 它 是 一 个 基于 Hadoop 的 大 规模 数据 
分 析 平 台 , 它 提供 的 SQL-like 语言 叫 Pig Latin ,该 语言 的 编译 器 会 把 类 SQL 的 数据 分 析 请 
求 转换 为 一 系列 经 过 优化 处 理 的 MapReduce 运算 ,Pig 为 复杂 的 海量 数据 并 行 计算 提供 了 
一 个 简易 的 操作 和 编程 接口 。 

项 目地 址 : http://pig. apache. org. 

10) Zookeeper 一 一 分 布 式 协调 系统 

Zookeeper 是 Hadoop 的 正式 子 项 目 , 它 是 一 个 针对 大 型 分 布 式 系统 的 可 靠 协调 系统 ， 
提供 的 功能 包括 : 配置 维护 、 名 字 服 务 、 分 布 式 同步 ,组 服务 等 。Zookeeper 的 目标 就 是 封装 
好 复杂 易 出 错 的 关键 服务 ,将 简单 易 用 的 接口 和 性 能 高 效 、 功 能 稳定 的 系统 提供 给 用 户 。 

项 目地 址 : http://zookeeper. apache. org. 

11) Sqoop 一 一 关系 数据 转换 工具 

Sqoop 是 SQL-to-Hadoop 的 缩写 ,该 工具 是 Hadoop 环境 下 连接 关系 数据 库 和 Hadoop 
存储 系统 的 桥梁 ,支持 多 种 关系 数据 源 和 Hive, HDFS, HBase 的 相互 导入 。 一 般 情况 下 ， 
关系 数据 表 存 在 于 线 上 环境 的 备份 环境 ,需要 每 天 进行 数据 导入 ,根据 每 天 的 数据 量 ， 
Sqoop 可 以 全 表 导 入 ,对 每 天 产生 的 数据 量 不 是 很 大 的 情形 可 以 全 表 导 入 ,但 是 Sqoop th HE 
供 了 增 量 数据 导入 的 机 制 。 

项 目地 址 : http://sqoop. apache. org。 

12) Flume 一 一 日 志 数 据 收集 工具 

Flume 是 由 Cloudera 开发 的 一 个 分 布 式 .高 可 靠 .高 可 用 的 海量 日 志 聚 合 系统 ,支持 在 
系统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数据 ;同时 ,Flume 提供 对 数据 进行 简单 处 理 , 并 写 到 
各 种 数据 接收 方 (可 定制 ) 的 能 力 。 

项 目地 址 : http://flume. apache. org. 
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2.4 Hadoop 的 版 本 衍化 


2006 年 Hadoop 正式 成 为 Apache 开源 组 织 的 独立 项 目 后 ,经 过 近 十 年 的 发 展 ， 
Hadoop 的 版 本 发 生 了 很 大 的 变化 ,至 2015 年 1 月 ,已 经 发 布 了 2.6.0 版 ,这 给 初学 者 的 选 
择 带 来 了 很 大 的 困惑 和 苦恼 ,下 面 简要 介绍 一 下 Hadoop 版 本 的 衍化 过 程 ,如 表 2-1 所 示 。 


表 2-1 Hadoop 各 版 本 特点 及 版 本 衍化 


版 本 号 说 明 演变 版 
0.20.X 经 典 版 本 ,第 一 次 包含 的 特性 均 可 用 EX 
0.21.X 41% Append. RAID,Symlink, NameNode HA, 但 不 包括 Security 
0.22. X 包含 Append. RAID,Symlink, NameNode HA, 但 不 包括 MapReduce Security 
0.23.X 下 一 代 Hadoop, & # HDFS Federation 和 YARN 两 个 系统 2.X 
1.X 标志 着 Hadoop 进入 成 熟 期 
2.X 增加 了 NameNode HA 和 Wire-compatibility , Hadoop 进入 新 的 发 展 阶段 


Apache Hadoop 版 本 分 为 两 代 , 将 第 一 代 Hadoop 称 为 Hadoop 1.X, 第 二 代 Hadoop 
称 为 Hadoop 2.X。 第 一 代 Hadoop 包含 三 个 大 版 本 ,分 别 是 0. 20. X,0. 21. X 和 0.22.X， 
其 中 ,0. 20. X 最 后 演化 成 1. 0. X, 变 成 了 稳定 版 ,而 0. 21. X 和 0. 22. X 则 加 入 了 
NameNode HA 等 新 的 重大 特性 。 第 二 代 Hadoop 包含 两 个 版 本 ,分 别 是 0.23. X 和 2. X. 
它们 完全 不 同 于 Hadoop 1.0, 是 一 套 全 新 的 架构 , 均 包含 HDFS Federation 和 YARN 两 个 
系统 , 相 比 于 0.23.X,2.X 增加 了 NameNode HA 和 Wire-compatibility 两 个 重大 特性 。 

根据 以 上 分 析 , 当前 Hadoop 实际 上 只 有 两 个 版 本 : Hadoop 1. X 和 Hadoop 2. X, 其 
中 ,Hadoop 1. X 由 一 个 分 布 式 文件 系统 HDFS 和 一 个 离线 计算 框架 MapReduce 组 成 ,而 
Hadoop 2. X 则 包含 一 个 支持 NameNode 横向 扩展 的 HDFS ,一 个 资源 管理 系统 YARN 和 
一 个 运行 在 YARN 上 的 离线 计算 框架 MapReduce。 相 比 于 Hadoop 1. X. Hadoop 2.X 功 
能 更 加 强大 , 且 具 有 更 好 的 扩展 性 \、 性 能 ,并 支持 多 种 计算 框架 。 但 2. X 缺乏 稳定 性 ,没有 
经 过 大 公司 的 检验 ,因此 ,在 本 书 中 还 是 介绍 1.X 版 本 。 


2.5 Hadoop 的 发 展 趋势 


2007 年 推出 的 开源 Hadoop 系统 ,以 其 良好 的 可 用 性 、 可 扩展 性 、 易 用 性 、 开 源 等 特点 ， 
迅速 引起 了 学 术 界 和 业界 的 关注 ,业界 许多 公司 开始 研究 及 应 用 Hadoop, 并 在 应 用 的 基础 
上 开发 出 许多 应 用 系统 ,如 : Facebook 开发 并 向 Apache 基金 会 贡献 了 Hive 数据 仓库 ; 
Yahoo 开发 并 贡献 了 Pig 数据 分 析 平 台 ; Twitter 开发 并 贡献 了 用 于 流 数 据 计 算 的 Storm。 
可 以 说 ,Hadoop 已 经 成 为 大 数据 处 理 领 域 事实 上 的 工业 标准 。 经 过 近 十 年 的 发 展 , Hadoop 
逐渐 提升 了 自己 的 性 能 ,丰富 了 自身 的 功能 ,先后 发 布 了 数 十 个 版 本 。 

通过 以 上 介绍 ,可 以 知道 ,Hadoop 大 致 经 历 了 两 个 大 的 版 本 系列 : 1.X 系列 和 2.X 系 
列 。1.X 系列 的 HDFS 中 只 有 一 个 NameNode, 存在 主 控 节 点 单 点 瓶颈 问题 , 一 旦 
NameNode 失效 ,整个 集群 就 会 次 凋 。 由 于 Hadoop 的 设计 目标 就 是 提供 一 个 具有 高 吞吐 
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率 的 批 处 理 系 统 , 因 此 它 在 作业 的 响应 速度 方面 不 尽 如 人 意 , 延 迟 较 大 ,不 能 进行 即时 查询 
分 析 。 因 为 基于 MapReduce 编程 模型 ,降低 了 程序 员 程 序 开发 的 难度 ,同时 也 正 是 因为 
MapReduce 模型 ,使 Hadoop 不 适合 于 进行 高 效 的 迭代 计算 、 流 式 数 据 的 计算 、 图 数据 的 计 
算 。 为 了 弥补 Hadoop 在 这 些 方面 的 不 足 , 许 多 业界 的 公司 开发 了 新 的 系统 ,如 : Twitter 
的 Storm 加 州 伯 克利 分 校 AMP 实验 室 的 Spark. 

2011 年 10 月 ,Hadoop 0. 23 版 本 发 布 , 在 此 基础 上 ,逐渐 演变 成 为 Hadoop 2. X 版 本 。 
Hadoop 2. X 系列 解决 了 Hadoop 1. X 的 单 点 瓶颈 问题 ,提高 了 Hadoop 集群 的 高 可 用 性 
(High Availability, HA). Hadoop 2. X 同时 还 加 入 YARN 架构 。YARN 架构 包括 资源 
管理 (ResourceManager,RM) 和 作业 管理 (ApplicationMaster,AM) 架构 。RM 控制 整个 集 
群 并 管理 应 用 程序 及 基础 计算 资源 的 分 配 ,RM 将 各 个 资源 部 分 (计算 内存、 带宽 等 ) 精 心 
安排 给 基础 NodeManager(NM) ,RM 还 与 AM 一 起 分 配 资源 ,与 NM 一 起 启动 和 监视 它们 
的 基础 应 用 程序 。 在 YARN 架构 下 ,AM 承担 了 以 前 的 TaskTracker 的 一 些 角 色 ,RM 承 
担 了 JobTracker 的 角色 。AM 管理 在 YARN 内 运行 的 应 用 程序 的 每 个 实例 。AM 负责 协 
调 来 自 RM 的 资源 ,并 通过 NM 监视 容器 的 执行 和 资源 使 用 (CPU、 内 存 等 的 资源 分 配 )。 
NM 管理 一 个 YARN 集群 中 的 每 个 节点 。NM 提供 针对 集群 中 每 个 节点 的 服务 ,从 监督 对 
一 个 容器 的 终生 管理 到 监视 资源 和 跟踪 节点 健康 。YARN 继续 使 用 HDFS 层 。 它 的 主要 
NameNode 用 于 元 数据 服务 ,而 DataNode 用 于 分 散在 一 个 集群 中 的 复制 存储 服务 。 一 个 
任务 在 YARN 集群 中 的 执行 过 程 是 这 样 的 : 首先 需要 来 自 包含 一 个 应 用 程序 的 客户 的 请 
求 。RM 协商 一 个 容器 的 必要 资源 ,启动 一 个 AM 来 表示 已 提交 的 应 用 程序 。 通 过 使 用 一 
个 资源 请 求 协议 ,AM 协商 每 个 节点 上 供应 用 程序 使 用 的 资源 容器 。 执 行 应 用 程序 时 ,AM 
监视 容器 直到 完成 。 当 应 用 程序 完成 时 ,AM 从 RM 注销 其 容器 ,执行 周期 就 完成 了 。 
YARN 架构 提高 了 资源 的 利用 率 , 而 且 支持 Spark, Storm, S4, MPI 等 并 行 计 算 框架 ,降低 
了 运营 成 本 ,实现 了 数据 共享 。 

人 们 在 运用 和 开发 Hadoop 应 用 的 同时 ,发 现 了 Hadoop 的 一 些 不 足 : 作为 一 种 批 处 理 
系统 , 它 的 响应 时 间 较 长 ,不 能 与 客户 进行 实时 的 共享 ,不 能 处 理 流 式 数据 等 。 于 是 ,一 些 业 
界 的 公司 和 机 构 开 发 了 应 用 于 不 同 领域 的 大 数据 处 理 系统 。 如 : 加 州 伯 克利 分 校 AMP 实 
验 室 开发 了 Spark ,该 系统 广泛 支持 批 处 理 、 流 数据 处 理 、. 迭 代 计 算 、 内 存 计 算 、 图 数据 计算 
等 众多 计算 模式 。 众 多 新 的 计算 模式 的 出 现 并 不 意味 着 Hadoop 就 已 经 过 时 ,可 以 抛弃 。 
由 于 Hadoop 在 大 数据 的 分 布 式 存储 、 开 发 的 简易 性 及 扩展 性 是 其 他 系统 不 可 比 的 ,并 且 由 
于 近 几 年 来 业界 开发 的 大 量 Hadoop 应 用 仍 将 继续 在 线 运 行 ,与 Hadoop 相关 的 各 种 工具 
软件 也 将 不 断 丰 富 多 样 , Hadoop 自身 的 性 能 和 功能 也 将 不 断 地 提升 。 互 联网 数据 中 心 
IDC 预测 ,到 2016 4E. Hadoop 将 实现 8. 128 亿美 元 的 销售 额 一 一 复合 年 增长 率 达 到 
60.2%。 因 此 ,Hadoop 在 以 后 相当 长 的 一 段 时 间 内 将 继续 不 断 发 展 ,并 保持 其 在 大 数据 处 
理 领 域 的 主流 技术 和 平台 的 地 位 , 且 将 逐渐 与 其 他 新 的 系统 相互 融合 共存 。 


Hadoop 是 目前 发 展 历史 最 久 ,应 用 最 多 的 一 种 开源 大 数据 分 析 工 具 系统 。 随 着 技术 
的 进步 ,Hadoop 的 功能 越 来 越 强 大 ,2.0 版 本 后 ,Hadoop 使 用 了 新 的 YARN 框架 ,Spark 
也 可 以 在 Hadoop 的 YARN 框架 下 运行 的 ,Hadoop 与 Spark 有 可 能 出 现 融合 共存 的 趋势 。 
因此 ,以 Hadoop 为 蓝本 ,研究 大 数据 的 相关 技术 。 


3.1 安装 Ubuntu Server 


Hadoop 目前 主要 是 在 Linux 环境 下 运行 ,而 用 户 最 习惯 使 用 的 还 是 Windows 操作 系 
统 ,为 让 Windows 下 的 用 户 能 够 连接 操作 Linux 集群 下 的 Hadoop, 最 好 的 方法 是 在 集群 服 
务 器 中 使 用 Linux, 而 在 开发 端 使 用 人 们 比较 常用 的 Windows 及 其 下 的 Eclipse, 进 行 开 发 
与 操作 。 在 研究 开发 Hadoop 技术 时 ,为 了 方便 快捷 ,在 一 个 大 内 存 的 Windows 计算 机 中 
安装 VMware Workstation ,使 用 多 个 Linux 虚拟 机 组 成 一 个 Linux 服务 器 集群 , 既 方 便 了 
研发 与 调试 ,同时 也 降低 了 研发 的 成 本 。 


314. Vere 网 络 适 配器 的 连接 模式 


1E VMware Linux 虚拟 机 集群 中 ,需要 对 虚拟 机 进行 一 些 设置 ,以 便 虚拟 机 之 间 能 够 相 
互通 信 。 这 里 主要 涉及 VMware Workstation 网 络 适 配器 的 设置 ,网 络 适配器 的 设置 有 以 
下 几 种 模式 。 


1. 桥接 模式 

在 桥接 (bridged) 模 式 下 ,VMware 虚拟 出 来 的 操作 系统 就 像 是 局 域 网 中 的 一 台独 立 的 
主机 , 它 直 接连 接 物理 网 络 ,可 以 访问 网 内 任何 一 台 计算 机 。 这 时 ,需要 手工 为 虚拟 系统 配 
TE IP 地 址 . 子 网 掩 码 ,而且 还 要 和 宿主 机 器 处 于 同一 网 段 , 这 样 虚拟 系统 才能 和 宿主 机 器 进 
行 通信 。 同 时 ,由 于 这 个 虚拟 系统 是 局 域 网 中 的 一 个 独立 的 主机 系统 ,那么 可 以 手工 配置 它 的 
TCP/IP 配置 信息 ,以 实现 通过 局 域 网 的 网 关 或 路 由 器 访问 互联 网 。 这 种 模式 下 ,默认 使 用 
VMnet0, 当 没有 物理 线路 连接 到 宿主 机 上 时 ,宿主 机 与 虚拟 机 之 间 是 不 可 以 进行 通信 的 。 

2 NAT 模式 

NAT 是 Network address translate 的 简称 。NAT 技术 应 用 在 Internet 网 关 和 路 由 器 
上 ,比如 192.168.0.123 这 个 地 址 要 访问 Internet, 它 的 数据 包 就 要 通过 一 个 网 关 或 者 路 由 
器 ,而 网 关 或 者 路 由 器 拥有 一 个 能 访问 Internet 的 IP 地 址 ,这 样 的 网 关 和 路 由 器 就 要 在 收 
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发 数据 包 时 ,对 数据 包 的 IP 协议 层 数据 进行 更 改 ( 即 NATO ,以 使 私有 网 段 的 主机 能 够 顺利 
访问 Internet。 此 技术 解决 了 IP 地址 稀缺 的 问题 ,私有 IP 的 主机 可 以 通过 NAT 技术 
上 网 。 

VMware 的 NAT 上 网 也 是 同样 的 道理 , 它 在 主机 和 虚拟 机 之 间 用 软件 虚拟 出 一 块 网 
卡 , 这 块 网 卡 和 虚拟 机 的 IP 处 于 一 个 地 址 段 。 同 时 ,在 这 块 网 卡 和 主机 的 网 络 接口 之 间 进 
行 NAT。 虚 拟 机 发 出 的 每 一 个 数据 包 都 会 经 过 虚拟 网 卡 ,NAT, 然 后 由 主机 的 接口 发 出 。 

虚拟 网 卡 和 虚拟 机 处 于 一 个 地 址 段 ,虚拟 机 和 宿主 机 不 在 同一 个 地 址 段 ,宿主 机 相当 于 
虚拟 机 的 网 关 , 所 以 虚拟 机 能 ping 到 宿主 机 的 IP, 但 是 宿主 机 ping 不 到 虚拟 机 的 IP。 

YE NAT 模式 下 ,默认 使 用 VMnet8 ,虚拟 机 可 以 配置 为 动态 IP 或 静态 IP, 宿 主机 能 上 
网 ,虚拟 机 就 可 以 访问 Internet, 但 是 主机 不 能 访问 虚拟 机 。 在 本 书 中 ,宿主 机 需要 访问 虚 
拟 机 ,因此 ,虚拟 机 网 络 适 配器 的 设置 不 能 设 为 NAT。 


3. IL EHL Chost only) 模式 

仅 主 机 模式 提供 了 主机 和 虚拟 机 之 间 的 网 络 互 访 。 只 想 让 虚拟 机 和 宿主 机 之 间 有 数据 
交换 ,而 不 想 让 虚拟 机 访问 Internet, 就 要 采用 这 个 设置 了 。 

Host-only 模式 下 ,VMware 在 宿主 机 的 Windows 系统 中 ,建立 一 块 软 网 卡 。 这 块 网 卡 
可 以 在 网 络 连 接 中 看 到 ,一 般 是 VMnetl ,这 块 网 卡 的 作用 就 是 使 Windows 看 到 虚拟 机 的 
IP. Host-only 技术 只 用 于 宿主 机 和 虚拟 机 互 访 , 与 访问 Internet HK. 

当 宿主 机 需要 访问 虚拟 机 时 ,采用 两 种 方式 设置 。@ 虚 拟 机 网 络 设置 为 桥接 模式 ,并 把 
虚拟 机 与 Windows 宿主 机 设置 在 同一 网 段 。 当 宿主 机 有 物理 线 缆 连接 网 络 时 ,虚拟 机 可 以 
与 宿主 机 相互 通信 ,并 访问 Internet。 当 虚拟 机 需要 访问 Internet 时 采用 这 种 连接 方式 。 
加 虚拟 机 的 网 络 适配器 采用 ”* 仅 主机 ?模式 ,并 设置 为 一 静态 IP, 宿 主机 的 VMnetl 设置 一 
个 与 虚拟 机 在 同一 网 段 的 IP, 这 样 宿主 机 与 虚拟 机 就 可 以 互相 访问 了 ,并 且 不 需要 物理 线 
缆 的 连接 ,虚拟 机 集群 可 以 是 一 个 内 网 的 网 段 ( 比 如 192. 168. X. X、172. 16. X. XO) ,这 样 
的 设置 比较 灵活 , 当 没 有 网 络 环境 时 采用 这 种 方式 访问 虚拟 机 。 
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1. 配置 VMware Workstation 中 “虚拟 网 络 编辑 器 ”的 设置 

(1) 单 击 VMware 菜单 “编辑 ”一 “虚拟 网 络 编辑 器 ”, 打 开 如 图 3-1 所 示 窗 口 。 

(2) 选择 “VMnetl 仅 主 机 ”类 型 。 

(3) 在 窗口 下 方 的 子 网 IP 中 填 入 192. 168. 1.0, 在 “ 子 网 掩 码 ”中 填 入 255. 255. 255. 0。 
(4) 单 击 “ 确 定 ” 按 钮 ,保存 设置 。 


2 设置 VMware 中 VMhetl 属性 

CD 在 Windows 7 桌面 任务 栏 右 侧 通知 区 域 , 右 击 网 络 图 标 , 打 开 “ 网 络 和 共享 中 心 ”。 

(2) 单 击 窗口 左 侧 “ 更 改 适配器 设置 ”, 打 开 网 络 连接 窗口 。 

(3) dii VMware network Adapter VMnetl, 选 择 快捷 菜单 “属性 ”菜单 项 ,打开 
VMnetl 属性 窗口 。 

(4) 在 VMnetl 属性 窗口 , 单 击 “Internet 协议 版 本 4”, 单 击 “ 属 性 ”, 打 开 “Internet 协议 
版 本 4CTCP/IPv4) 属 性 ?窗口 。 


(29 


VMnet 信息 


回 桥接 模式 (将 虚拟 机 直接 连接 到 外 部 网 络 Xe) 

桥接 到 tr): [自动 自动 设置 (UW) 
加 NAT 模式 (与 虚拟 机 共享 主机 的 卫 地 址 XN) [nat REG.. | 
© RE Ust CE ARE AER EMH 


将 主机 虚拟 适配器 连接 到 此 网 络 (V) 
主机 虚拟 适配器 名 称 : VMware 网 络 适配器 VMnetl 


国 使 用 本 地 once 服务 将 地 址 分 配给 虚拟 机 (p) 


FMP: 192.168. 子 网 搞 码 (M): 255.255. 


3-1 VMware 虚拟 网 络 编辑 器 的 设置 


(5) 设置 VMnetl AY IP 地 址 : 192. 168. 1.2, 子 网 掩 码 : 255. 255. 255. 0 , 单 击 “ 确 定 ” 按 
钮 ,如 图 3-2 所 示 。 


等 控制 面板 > 网 络 和 Internet » 网 络 连 接 P | 好 enm. 0] 


> MIN EOD VMware N x 
an- Rue eat MORN NNI py g] 
: E x Im 

em || senem. 

: loopback cum @ Weare Virtual Ethernet Adapter for Vinetl 
管理 无 线 网 络 VirtualBox Host-Only Network Ed l 

| VMware Network Adapter VMn -一 一 (BBO...) 
TUNEHDE es Veet? BMA 此 连接 使 用 下 列 项 目 (0) : 
更 改 高 级 共享 设置 A ies) 回 哇 Wicrosoft MIHE PA < 

domo D fivtrtuatbor Bridged Networking Driver 

snam  Giüteerystis) O Vivare Eridge Protocol 
acl eae 9 mo Microsoft 网 络 的 文件 和 打印 机 共享 
© aew 回 二 Internet 协议 着 本 6 (TCP/IPv6) 
EE 
sasa 9 mem 2 seth damp atse iNet xe 
Internet Ij x A 
Windowsa [la Internet MURE 4 : [mmo 0] (elit a) 
gung *" FU n 
Rp: LERNER IF B. SM, 28 pA ERGY Amano, ERRETAN 
noi we ear eee T ST Ee 


O BIER r eto = 
ORATE 1P WES): Come) 
IP 地 址 (1): 192 .168 .1 .2 

FARBO: CERIS ES. 

RERO) = 


) 自动 获得 ws 服务 器 地 址 (8) 
全 使 用 下 面 的 ms 服务 器 地址 (E): 
mii DNS 服务 器 (P) 

备用 DNS RARU): 


因明 出 时 洽 证 设置 全) 


图 3-2 Windows 宿主 机 VMnetl 网 络 属性 设置 
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3 设置 虚拟 机 网 络 适 配器 连接 模式 
选择 一 个 虚拟 机 , 单 击 * 编 辑 虚拟 机 设置 *, 打 开 如 图 3-3 所 示 虚 拟 机 设置 窗口 , 单 击 左 


侧 “ 网 络 适 配器 ,选择 右 侧 “ 仅 主机 模式 ”。 


虚拟 机 设置 
[ws endl 
| 设备 摘要 设备 状态 

mA 1GB 已 连接 (C) 


uus 1 V Ries (0) 
amaso) 68 
ODD (Dt) 。 自动 检测 muss 


图 UsB 控制 器。 存在 © RATB): 直 失血 接 稀 理 网 络 
Dd aaa 复员 物理 网 结 连接 状态 (p) 
(emen 存在 

aua aa NAT WEN): 用 于 共享 主机 的 IP 地 址 


— pr © 仅 主机 模式 (H): 与 主机 共享 的 专用 网 络 
C 自 证 义 (U): 特定 虚拟 网 络 

Veneto ( 目 动 桥接 ) Li 
ON BRU: 


[AN ERS.) SRV) 


iA)... | | BIR) 
图 3-3 虚拟 机 网 络 适配器 连接 模式 设置 


以 上 设置 的 基本 原则 是 : 虚拟 机 中 的 Linux 服务 器 采用 静态 IP, 与 VMnetl 处 于 一 个 
网 段 内 ,这 样 ,虚拟 机 中 的 Linux 服务 器 之 间 ,Linux 服务 器 与 Windows 7 宿主 机 之 间 就 可 
以 相互 通信 了 ,在 Windows 7 宿主 机 上 可 以 使 用 SecureCRT 等 软件 登录 Linux, f THE. 
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Hadoop 目前 只 能 运行 在 Linux 操作 系统 上 ,至 于 安装 时 使 用 何 种 版 本 的 Linux, JJ rH 
用 户 根 据 使 用 习惯 与 服务 器 的 用 处 来 决定 。 一 般 来 说 ,用 于 生产 环境 的 Linux 版 本 可 以 选 
择 Red Hat Enterprise Linux 或 者 是 它 的 免费 版 CentOS; 如果 直接 在 Linux 进行 Hadoop 
的 开发 ,可 以 选择 Ubuntu 桌面 版 ;本 书 安装 所 用 Linux 版 本 为 Ubuntu Server 12. 04LTS。 
HX, Linux 的 核心 与 使 用 方法 是 相似 的 ,不 同 的 只 是 配置 方法 与 界面 等 非 核心 因素 。 

Ubuntu Server 12. 04LTS 的 下 载 地 址 为 : http://releases. ubuntu. com/precise/ 。 

选择 32 位 版 ubuntu-12. 04. 4-server-i386. iso 或 64 版 ubuntu-12. 04. 4-server-amd64. 
iso 下 载 ,这 里 选择 的 是 32 位 版 (编者 注 : 不 同时 期 访问 网 站 ,软件 版 本 可 能 会 有 更 新 ) 。 


1 创建 虚拟 机 

CD 打开 VMware Workstation 软件 ,在 “主页 ”选项 卡 中 选择 “创建 新 的 虚拟 机 ”, 如 
图 3-4 所 示 。 

(2) 然后 选择 “ 自 定义 (高 级 )" 安 装 类 型 ,如 图 3-5 所 示 。 

(3) 在 创建 虚拟 机 向 导 窗 口中 ,如 图 3-6 所 示 ,选择 “ 稍 后 安装 操作 系统 单 选 按钮 。 这 
样 选择 是 为 了 避免 VMware 自动 安装 操作 系统 。 
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软件 更 新 
4888 VMware Workstation 的 软件 更 新 


3-4 创建 新 的 虚拟 机 


A m 


欢迎 使 用 新 建 虚拟 机 向 导 


DERRAMADA? 


O sadi) 
通过 几 个 简单 的 步骤 创建 Workstation 10.0 
虚拟 机 


[o 


"UR, UA 


GORGE PIRE 


BRAUNER MERER (ode Uni ee MLE RR? 


FARR: 
AWEKA) 
xem 


O SEAR e sch (60)(M): 


6 BX (EXO F\soft\os\ubuntu-t2.04 server 386.6» -] [win 
Gt SCSI ewan eimen 
以 及 与 旧版 VMware amen Su 
© Met ORAS 
[E 
[mn 
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(4) 在 向 导 的 命名 虚拟 机 窗口 中 ,输入 虚拟 机 名 称 master, 在 位 置 文本 框 选 择 G:\vm\ 


图 3-5 选择 自 定义 (高 级 ) 


master, 如 图 3-7 所 示 。 
(5) 在 网 络 类 型 窗口 中 ,选择 “使 用 桥接 网 络 ”, 如 图 3-8 所 示 。 


(6) 在 新 建 虚拟 机 向 导 完 成 后 ,更 改 虚拟 机 设置 ,弹出 如 图 3-9 所 示 窗 口 ,在 左 侧 选择 
CD/DVD. ÆA WEH ISO 映像 文件 ”文本 框 中 选中 下 载 的 ubuntu-12. 04. 4-server-i386. iso. 


图 3-6 选择 光 映 像 文件 


(7) 然后 启动 虚拟 机 。 这 样 就 避免 了 自动 安装 Ubuntu Server, 


国 )) 提示 : 在 VMware 中 安装 Linux 时 ,VMware 会 进行 自动 安装 ,导致 许多 参数 无 
法 设置 ,取消 自动 安装 的 另 一 方法 是 : 在 典型 安装 设置 最 后 一 步 ,取消 “创建 后 开启 此 虚拟 
机 ” 复 选 框 后 ,在 虚拟 机 安装 目录 下 (本 例 目 录 为 : D:\vm\master) 删 除 autoinst. iso 文件 ， 


也 可 取消 自动 安装 。 


LE 
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ELMAR): 
master 


80: 
GAvm\master 
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© 使 用 网 络 地 址 转换 (NATJ(E) 
ee a JP 地 址 访问 主机 找 号 连接 或 外 部 以 太 问 了 纺 连 接 的 


C 使 用 仅 主机 模式 了 络 (H) 
将 客户 机 捐 作 系统 连接 到 主机 上 的 专用 虚拟 网 阁 。 


O 不 使 用 网 络 连 按 (T) 


3-8 网 络 连接 选择 桥接 方式 


设备 状态 
Digiti) 
T eiio) 
连接 
(© teftis ches (P): 
自动 检测 
回 使 用 ISO 映像 文件 (M): 


FAsoftloslubuntu-12.04.4- ~ (C306) ) 


图 3-9 更 改 虚拟 机 设置 
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E 


2 安装 Ubuntu Server 
(1) 虚拟 机 启动 后 ,选择 English 语种 ,如 图 3-10 所 示 。 在 安装 中 若 选择 “中 文 ”, 则 有 
可 能 导致 系统 编码 出 现 问题 ,既然 是 服务 器 ,这 里 选择 英语 作为 默认 语言 。 


Language 


Amharic Gaeilge Malayalam Thai 
Galego Marathi Tagalog 
Nepali Türkçe 
Nederlands Uyghur 
Norsk bokmål Yepaircona 


Bengali Norsk nunorsk Tiéng viét 

Bosanski a Punjabi (Gurmukhi) | TA 
al Polski ESA 1] 

Português do Brasil 

Português 

Ronénd 

Pyccsyii 

Saneglllll 


Cpnam 
Lietuviskal Svenska 
Latviski anil 

Nekeaoncku. Fow 


图 3-10 选择 English 语种 


(2) 选择 Install Ubuntu Server, 如 图 3-11 所 示 。 


图 3-11 选择 Install Ubuntu Server 


(3) 选择 系统 使 用 的 语种 ,这 里 选 English。 
(4) 选 other HR. i 选 Asia>China— United States ,键盘 布局 也 选择 English, 
(5) 在 config the network 的 Continue without a default router 选择 Yes。 
(6) 在 Hostname 文本 框 中 输入 主机 名 master, 如 图 3-12 所 示 。 
(7) 在 Full name for the new user 中 输入 用 户 名 hadoop, 如 图 3-13 所 示 。 
(8) 在 Choose a password for the new user 文本 框 中 输入 密码 hadoop, 如 图 3-14 所 示 。 
(9) 选择 安装 OpenSSH Server, 如 图 3-15 所 示 。 
HEB: 请 记 住 用 户 名 hadoop, 以 后 需要 把 Windows 的 用 户 名 也 改 为 hadoop, 保 持 


= 


Please enter the hostname for this sustem. 


The hostname is a single word that identifies your system to the network, If you don't 
Know what your hostname shouid be, consult your network adininistrator, J you are setting 
Up your oun hone network, you com moke something up here. 


Hostname: 


图 3-12 输入 主机 名 master 


A user account wilL be created for you To use instead of the root account for 
mon-edainistrative activities. 


Please enter the rea} name of this user. This information wili be used for instence as 
default origin for emails sent by this User os weli as any program hich displays or uses 
The user's real name. Your full name is a reasonable choice. 

Full name for the new user: 


a 
<Go Back> aua 


图 3-13 输入 用 户 名 hadoop 


T 


god password will contain a mixture of letters, numbers end punctuation and should be 
charged st regulae Intervals 


continue) 


图 3-14 输入 用 户 密码 hadoop 
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Tz acflusre selection 
At the moment, only the core of the sustem is installed, To tune the system to your 

> You can choose to install one or more of the following predefined collections of 
Software, 


Choose softesre to install: 


Cont nue» 


图 3-15 选择 安装 OpenSSH Server 


3 修改 系统 参数 

1) 修改 系统 主机 名 

Ubuntu 主机 名 的 参数 文件 为 /etc/hostname, 通 过 修改 该 文件 , 即 可 修改 主机 名 。 在 虚 
拟 机 中 通过 克隆 虚拟 机 而 得 到 另外 的 主机 时 ,需要 在 这 里 修改 主机 名 。 这 一 点 在 Linux 集 
群 配置 时 非常 重要 。 

2) 修改 系统 网 络 参 数 

Ubuntu 网 络 参 数 文件 为 /etc/network/interfaces ,修改 该 文件 , 即 可 修改 网 络 配置 。 

Ubuntu 系统 修改 IP 地 址 : sudo nano/etc/network/interfaces. 


auto eth0 

#iface eth0 inet dhcp 此 句 为 dhcp 的 配置 ,加 # 即 为 注释 
iface eth0 inet static # 此 句 是 将 eth0 设置 为 静态 IP 
address 192.168.1.10 # 设 置 IP 地 址 

netmask 255.255.255.0 # 设 置 子 网 掩 码 

gateway 192.168.1.1 # 设 置 默认 网 关 

broadcast 192.168.1.255 # 设 置 网 络 广播 地 址 


e) 提示: 在 克隆 的 虚拟 机 中 无 网 络 的 解决 方法 。 

在 虚拟 机 中 克隆 了 一 份 以 前 配置 好 的 Ubuntu Server. € & Ubuntu 以 后 ,新 建 出 的 
Ubuntu 也 能 用 ,唯一 的 问题 就 是 找 不 到 网 卡 了 ,提示 No such device eth0...。 

原因 是 VMware 保存 的 硬件 配置 文件 x.vmx 里 记录 了 网 卡 的 MAC 地 址 ,而 Ubuntu 
也 会 记录 MAC 地 址 ,这 样 在 克隆 虚拟 机 时 ,VMware 会 为 Ubuntu 分 配 一 个 新 的 eth0 网 
卡 ,但 是 由 于 被 之 前 的 eth0 占用 ,所 以 它 会 变 成 ethl, 并 且 eth0 是 默认 的 网 卡 , 显 然 这 个 网 
卡 不 存在 ,所 以 就 提示 No such device eth0... 。 

Ubuntu 保存 MAC 地 址 的 配置 文件 为 /etc/udev/rules. d/70-persistent-net. rules, 解 决 
方法 就 是 直接 删除 配置 文件 ,重启 虚拟 机 之 后 Ubuntu 就 会 找到 新 的 网 卡 了 。 命 令 如 下 : 


sudo rm /etc/udev/rules.d/70- persistent- net.rules 
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使 配置 的 网 络 参数 生效 : 
sudo /etc/init.d/networking restart 
或 者 


$sudo ifconfig eth0 down 


$sudo ifconfig eth0 up 


sudo ifup eth0 

重启 网 络 ,使 配置 文件 的 配置 生效 。 

3) 修改 DNS 配置 

Ubuntu 中 域名 服务 器 (DNS) 是 在 /etc/resolv. conf 文件 中 配置 的 ,但 Ubuntu 12.04 重 
启 后 ,会 覆盖 该 文件 ,解决 办 法 为 : 在 /etc/resolvconf/resolv. conf. d/ 目 录 下 创建 tail 文件 ， 
BA 


nameserver 192.168.1.1 
nameserver 211.98.2.4 


这 里 的 192. 168. 1. 1 为 本 地 的 路 由 器 地 址 。 它 既是 网 关 , 也 是 DNS, 


314 远程 管理 hanu Server 


对 Linux 服务 器 进行 管理 ,比较 好 的 方式 就 是 远程 管理 ,目前 可 以 使 用 的 方式 有 
telnet, rlogin, ftp,ssh 等 ,而 telnet, rlogin, ftp 则 是 非常 不 安全 的 工具 (它们 传输 密码 时 使 用 
明文 ,导致 密码 很 容易 被 窃取 ) ,因此 ,这 里 使 用 ssh 协议 。 

在 Ubuntu 中 使 用 的 是 OpenSSH ,所 以 在 安装 服务 器 的 过 程 中 需要 安装 OpenSSH, & 
装 过 程 如 前 所 述 , 若 在 系统 安装 过 程 中 没有 安装 OpenSSH ,可 以 使 用 如 下 方法 安装 。 

方法 1: 通过 命令 安装 。 若 服务 器 连接 Internet, 用 下 面 的 命令 进行 安装 。 

sudo apt- get update 

sudo apt-get install openssh- server 

sudo apt-get install openssh- client 

方法 2: 通过 tasksel 安装 。tasksel 是 一 个 Debian 下 的 安装 任务 套件 ,如果 为 了 使 系统 
完成 某 一 种 常规 功能 ,而 需要 安装 某 个 软件 包 时 ,就 可 以 使 用 它 了 。Ubuntu Server F, 
tasksel 默认 是 已 经 安装 完成 的 。 安 装 命令 如 下 : 


sudo tasksel install openssh server 


或 
sudo tasksel 


调 出 安装 界面 ,然后 在 tasksel 界面 中 ,用 上 下 方向 键 移动 光标 ,用 空格 键 选中 openssh 
server, 用 Tab 键 把 光标 移动 到 OK 键 , 按 Enter 键 后 即 可 安装 ,如 图 3-16 所 示 。 
CC UE AY a SH 


sudo tasksel remove openssh- server 


' oR 


或 者 通过 sudo tasksel 调 出 安装 界面 进行 操作 。 


Softuare selection 
You can choose to install one or more of the following predefined 
collections o softwere. 


Choose software to install: 


图 3-16 通过 tasksel 安装 OpenSSH Server 


Linux 下 的 远程 控制 软件 很 多 ,比如 PuTTY.SSH Shell, vne, SecureCRT, Xshell 等 。 
PuTTY 是 一 个 免费 的 远程 管理 工具 ,支持 SSH 协议 ,输入 远程 服务 器 的 IP、 用 户 名 、 密 码 
即 可 连接 到 Linux 服务 器 。SSH Shell 除了 可 以 进行 远程 管理 外 ,还 有 一 个 SSH secure 
File Transfer 工具 ,可 以 在 Linux 服务 器 与 客户 端 之 间 进 行文 件 的 传输 。vne 是 一 个 图 形 
界面 的 远程 控制 工具 ,在 Ubuntu Server 下 不 用 它 。SecureCRT 和 Xshell 还 有 一 优点 就 是 
支持 多 标签 ,在 云 计 算 环境 可 能 需要 远程 管理 多 个 Linux 服务 器 ,因此 ,推荐 使 用 这 些 
有 多 标签 功能 的 管理 工具 。 这 里 以 SecureCRT 7. 2 为 例 进行 讲解 。 

COD 建立 连接 。 打 开 SecureCRT, 单 击 * 工 具 栏 "上 的 Quick Connect(ALT 十 Q) 按 钮 ， 
建立 新 的 连接 ,如 图 3-17 所 示 。 

图 not connected - SecureCRT [E177] 


File Edit View bros Transfer Script Tools Window Help 
za Pee ek eee eee 


0,0  ORowsOCols 


图 3-17 it; Quick Connect 按钮 建立 连接 


(2) 在 弹出 的 Quick Connect 窗口 中 输入 远程 Linux 服务 器 的 IP 地 址 ,用户 名 ,如 图 3-18 
所 示 。 

(3) 保存 远程 主机 的 指纹 。 在 弹出 的 对 话 框 中 ,告诉 用 户 远程 主机 的 指纹 (经 过 MD5 
运算 得 出 ) , 单 击 Accept & Save 按钮 ,把 远程 主机 的 指纹 与 TP 地 址 建立 联系 。 当 远程 主机 
发 生变 化 时 ,SecureCRT 会 通知 用 户 :“ 远 程 主机 的 指纹 变化 了 ,可 要 注意 1”。 

(4) 保存 服务 器 指纹 后 ,弹出 的 窗口 中 输入 用 户 密码 , 即 可 进行 远程 管理 了 ,如 图 3-19 
和 图 3-20 所 示 。 


图 3-18 设置 连接 参数 


The host key sent by the server is different from 
A the host key stored in the host key database for 
192. 168. 1. 10 (192. 168. 1. 10), port 22. This may mean 
that a hostie your 
and you are not connected to the server you specified. 


Itis recommended you verify your host key before accepting. 


‘Server's host key fingerprint (MOS hash): 
67:30:73: 11:37:85:d7:ac: 2c:9f:50:6e:0d:88:40:95. 


3-19 保存 服务 器 指纹 


Enter Secure Shell Password > 


hadoop@ 192. 168. 1. 10 requires a password. 
please enter a pasword nom. Cx) 


Username: hadoop 


3-20 ”输入 用 户 密码 


上 面 介 绍 的 方法 虽然 已 经 很 安全 了 ,但 仍然 有 不 足 之 处 ,将 在 后 面 的 章节 中 介绍 公 钥 连 
接 远 端的 Linux 服务 器 。 
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Hadoop 是 用 Java 开发 的 , 它 运 行 时 需要 有 一 个 Java 环境 ,因此 在 安装 运行 Hadoop 之 
前 需要 安装 JDK。JDK 是 Java 开发 工具 箱 (Java Development Kit) 的 缩写 。 自 从 Java 推 
出 以 来 ,JDK 已 经 成 为 使 用 最 广泛 的 Java SDK(Software development kit), JDK 是 整个 
Java 的 核心 ,包括 Java 运行 环境 (Java Runtime Envirnment) ,一 些 Java 工具 和 Java 基础 的 
类 库 (rt. jar), AIGA Java 应 用 服务 器 实质 都 是 内 置 了 某 个 版 本 的 JDK。 因 此 掌握 JDK 
是 运行 Java 应 用 的 基础 。 最 主流 的 JDK 是 Sun 公司 (现在 已 经 被 Oracle 收购 ) 发 布 的 


‘ im 


JDK, 除 了 Sun 之 外 ,还 有 很 多 公司 和 组 织 都 开发 了 自己 的 JDK, 比 如 在 Ubuntu Server 下 
就 集成 了 Open JDK, 这 里 将 使 用 Sun 公司 (Oracle 公司 ) 的 JDK。 从 Sun 的 JDK 5.0 开始 ， 
提供 了 泛 型 等 非常 实用 的 功能 ,其 版 本 信息 也 不 再 延续 以 前 的 1.2、1.3、1.4, 而 是 变 成 5.0、 
6.0 了。 从 6.0 开始 ,其 运行 效率 得 到 了 非常 大 的 提升 ,最 新 版 本 是 8u20。 

JDK 的 下 载 地 址 是 : http://www. oracle. com/technetwork/java/javase/downloads/ 
index. html, 

JDK 有 32 位 版 和 64 位 版 之 分 ,这 里 选择 32 位 版 jdk-8u20-linux-i586. gz 下 载 ,下 载 后 
使 用 SecureCRT 的 SecureFX 上 传 至 Linux 服务 器 的 /home/hadoop 目录 下 ,然后 使 用 下 面 
的 命令 进行 安装 。 

1) 解压 JDK 压缩 包 到 /usr 

解压 当前 目录 下 的 jdk-8u20-linux-i586. gz 文件 到 /usr/lib 目录 下 

hadoop@ master:~$sudo tar zxvf ./jdk- 8u20- linux- i586.gz -C /usr/lib 

hadoop@ master:-$cd /usr/lib 

为 了 以 后 操作 方便 ,把 文件 夹 jdk1. 8.0. 20 改名 为 jdk ,当然 不 改 也 可 以 ,不 改 目录 名 的 
好 处 是 : 看 见 目 录 名 ,就 知道 Java 的 版 本 号 。 


hadoop@ master: /usr/lib$sudo mv jdk1.8.0 20/ jdk 
2) 配置 JDK 环境 变量 


在 文件 的 尾部 加 上 以 下 内 容 , 设 置 JAVA_HOME、PATH CLASSPATH 三 个 环境 变 
量 , 以 便 能 够 找到 Java 的 安装 目录 及 类 库 所 在 目录 。 


hadoop6 master:~$sudo nano /etc/profile 

JAVA HOME- /usr/lib/jdk 

PATH= $JAVA_HOME/bin: $PATH 

CLASSPATH= .:$9JAVA HOME/lib/dt.jar:$JAVA HOME/lib/tools.jar 

export JAVA HOME 

export PATH 

export CLASSPATH 

A 注意 : 在 CLASSPATH 一 后 面 有 一 个 点 “. "e 3p BG. 


输入 以 下 命令 使 之 立即 生效 ,当然 重启 服务 器 也 是 可 以 的 : 
hadoop@ master: /usr/lib$ source /etc/profile 
或 者 
hadoop@ master:/usr/lib$ . /etc/profile 
AEE: 点 后 面 有 一 空格 。 
检测 : 若 java -version 可 以 运行 则 说 明 Java 已 经 正确 地 安装 了 。 


hadoop@ master: /usr/lib$java - version 
java version "1.8.0 20" 


Java(TM) SE Runtime Environment (build 1.8.0 20-b26) 
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Java HotSpot (TM) Client VM (build 25.20-b23, mixed mode) 
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装 完 一 台 虚 拟 机 后 ,可 以 再 安装 其 他 的 虚拟 机 ,这 种 方法 较为 烦琐 ,可 以 使 用 VMware 
的 克隆 功能 克隆 其 他 的 虚拟 机 ,组 成 Linux 服务 器 集群 ,这 样 比较 简单 。 

本 次 安装 采用 VMware Workstation 10, 安 装 三 台 Ubuntu Server, 组 成 一 个 由 三 台 计 
算 机 组 成 的 Linux 服务 器 集群 。 系 统 结构 如 图 3-21 所 示 。 


VMware 虚拟 机 


Master Slavel Slave2 
Ubuntu Server Ubuntu Server Ubuntu Server 
192.168.1.10 192.168.1.20 192.168.1.30 


虚拟 机 网 卡 设置 为 桥接 ，Windows 7 可 以 访问 各 虚拟 机 ， 虚 拟 机 之 间 可 以 互相 访问 


Windows7 
- Eclipse 3.3.2 
« T 192.168.1.2 
BS 


图 3-21 系统 结构 
(1) 选择 master 虚拟 机 ,选择 菜单 “虚拟 机 ”一 “管理 ”一 “克隆 ”。 打 开 克 隆 向 导 窗 口 ， 

如 图 3-22 所 示 。 
加 master - VMware Workstation [EXIT 
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图 3-22 克隆 虚拟 机 


(2) 在 向 导 窗 口中 ,选择 克隆 源 的 方法 : 四 虚拟 机 中 的 当前 状态 ,@ 现 有 快照 ,如 
图 3-23 所 示 。 


O 虚 沁 机 中 的 当前 杖 态 (C) 
JARS ORR HEPES ORES = 


(© 现 有 快照 ( 仅 限 关 闭 的 虚拟 机 )(S): 
C ——— 


CEO) 30>) ( RÀ ) 


3-23 选择 克隆 源 


(3) 在 向 导 窗 口中 ,选择 克隆 的 方法 : 四 创建 链接 克隆 ,@ 创 建 完整 克隆 ,如 图 3-24 所 
m. “链接 克 隆 ”需要 较 少 的 磁盘 空间 ， 完 整 克隆 ”具有 完全 的 独立 性 ,不 需要 原 克 隆 源 。 


克隆 方法 


他 键 链 接 克隆 (L) 
链 按 克 隆 是 对 原始 虚拟 机 的 引用 ， 所 需 的 存 舍 碰 盘 空 间 校 少 。 但是， 必须 能 够 


访问 原始 虚拟 机 才能 运行 


© 创建 完整 克隆 (F) 
完整 克隆 是 原 权 虚拟 机 当前 状态 的 完整 副本 。 此 副本 虚拟 机 完全 独立 ， 但 需要 较 
Sii ml. 


ESD] 


图 3-24 选择 克隆 方法 


克隆 服务 器 的 过 程 如 下 。 

(1) 输入 克隆 虚拟 机 的 名 称 。 这 里 把 两 个 虚拟 机 的 名 称 分 别 设 为 : slavel .slave2 ,如 
图 3-25 所 示 。 

(2) 修改 虚拟 机 的 名 称 。 

使 用 sudo nano/etc/hostname 命令 ,把 虚拟 机 名 称 改 为 : slavel 、slave2。 

(3) 修改 虚拟 机 的 IP 地 址 。 

Ubuntu Server 的 网 络 配置 文件 是 /etc/networkyVinterfaces ,修改 两 个 虚拟 机 的 IP 地 址 
分 别 为 : 192. 168. 1. 20,192. 168. 1. 30。 修 改 IP 的 命令 为 : sudo nano/etc/network/interfaces, 
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mna = 
新 虚拟 机 名 称 
总 要 为 此 虚拟 机 使 用 什么 名 称 ? 

虚报 机 名 称 (V) 

| slavel 

taw 

|  D3wmisbvel RAD... 

KE-50) su BA) 


图 3-25 输入 虚拟 机 名 称 
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在 进行 Hadoop 集群 配置 中 ,需要 在 /etc/hosts 文件 中 添加 集群 中 所 有 机 器 的 IP 与 主 


机 名 ,这 样 Master 与 所 有 的 Slave 机 器 之 间 不 仅 可 以 通过 IP 进行 通信 ,而 且 还 可 以 通过 主 
机 名 进行 通信 。 所 以 在 所 有 机 器 上 的 /etc/hosts 文件 中 的 内 容 应 该 如 下 所 示 : 


hadoop@ master:~$sudo nano /etc/hosts 
192.168.1.10 master 
192.168.1.20 slavel 
192.168.1.30 slave2 


nano 是 Ubuntu 下 集成 的 文本 编辑 器 , 较 vi 或 vim 操作 更 为 方便 一 些 ,进入 编辑 状态 


后 ,在 屏幕 下 方 有 快捷 键 的 提示 ,常用 的 快捷 键 有 : Ctrl 十 O 为 存盘 ,Ctrl 十 X 为 退出 nano. 


AEE: 此 操作 在 每 个 虚拟 主机 都 必须 做 一 馆 。 
下 面 在 每 台 虚 拟 机 中 用 ping 命令 检验 能 否 解析 主机 名 。 


hadoop@ master:~$ping master 
hadoop@ master:~$ping slavel 
hadoop@ master:~$ping slave2 


通过 ping 命令 ,发 现 已 经 能 够 解析 主机 名 了 。 


3.2 ”配置 SSH 公 钥 认证 


321 为 什么 要 公 钥 认证 


在 3.1.4 小 节 中 ,使 用 SecureCRT 软件 对 Ubuntu Server 进行 远程 管理 ,当时 使 用 的 


认证 方式 是 “用 户 名 ”十 “密码 ”的 方式 ,把 它 称 为 “密码 认证 ”方式 ,除了 密码 认证 方式 外 ,还 
有 男 外 一 种 更 好 的 认证 方式 : 公 钥 认证 。 那 么 为 什么 要 用 公 钥 认证 呢 ? 


CD 公 钥 认证 允许 使 用 空 密码 ,省 去 每 次 登录 都 需要 输入 密码 的 麻烦 。 


(CRI Hoop Arg dos 
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(2) 多 用 户 管理 服务 器 时 ,可 以 通过 多 个 公 钥 登录 同一 用 户 账户 ,因而 可 以 避免 认证 用 
户 时 需要 密码 ,从 而 导致 密码 泄密 事件 的 发 生 。 并 且 使 用 passwd 修改 密码 ,也 不 会 影响 到 
其 他 用 户 的 登录 。 

(3) 做 空 密码 的 公 钥 认证 ,为 运 维 自动 化 提供 了 便捷 方法 。 

(4) 如 果 使 用 putty 软件 ,暂时 不 支持 密码 保存 功能 ,每 次 登录 都 必须 输入 相应 的 密 
码 ,而 公 钥 管理 可 以 方便 地 进行 登录 ,省 去 输入 密码 的 操作 。 

因此 ,提倡 在 Windows 平台 用 公 钥 管理 远程 的 Linux 服务 器 ,这 样 较为 安全 方便 。 同 
时 ,在 Hadoop 集群 中 需要 Linux 服务 器 之 间 能 够 SSH 无 密码 登录 ,因此 ,需要 在 Ubuntu 
Server 中 进行 公 钥 登录 的 配置 。 


Ree : 公 钥 认证 的 王 作 原理 


公 钥 认证 方式 使 用 了 非 对 称 加 密 算法 。 在 该 算法 中 ,信息 的 发 送 方 和 接收 方 使 用 的 密 
钥 是 不 同 的 , 即 加 密 和 解密 的 密 钥 不 同 , 且 由 其 中 一 个 密 钥 很 难 导出 另 一 个 密 钥 。 两 个 密 钥 
中 ,一 个 是 公开 的 , 称 为 公 钥 (public key) , 另 一 个 是 保密 的 , 称 为 私 钥 (private key)。 通 常 ， 
加 密 密 钥 是 公开 的 ,解密 密 钥 是 保密 的 ,加 密 和 解密 的 算法 也 是 公开 的 。 常 用 的 非 对 称 加 密 
算法 有 : RSA 算法 .ElGamal 算 法 .DSA 算法 等 。RSA 是 较 常用 的 算法 ,这 里 使 用 RSA 算 
法 进行 公 钥 认证 。RSA 算法 的 安全 性 建立 在 对 大 数 进行 质 因 数 分 解 非常 困难 的 基础 上 ,大 
Ji n 是 否 能 够 被 分 解 是 RSA 算法 安全 的 关键 ,为 了 安全 ,通常 采用 1024 位 或 更 长 的 2 048 
位 大 数 ,因此 ,计算 速度 较 慢 ,一 般 只 用 于 加 密 较 少 的 数据 。 

公 钥 认证 方式 中 , 公 钥 对 数据 进行 加 密 而 且 只 能 用 于 加 密 , 私 钥 只 能 对 所 匹配 的 公 钥 加 
密 过 的 数据 进行 解密 。 把 公 钥 放 在 远程 系统 (服务 器 ) 合 适 的 位 置 ,然后 从 本 地 开始 进行 
ssh 连接 。 此 时 ,远程 的 sshd 会 产生 一 个 随机 数 并 产生 的 公 钥 进行 加 密 后 发 给 本 地 ,本 地 
会 用 私 钥 进行 解密 并 把 这 个 随机 数 发 回 给 远程 系统 。 最 后 ,远程 系统 的 sshd 会 得 出 结 
论 一 一 人 们 拥有 匹配 的 私 钥 允 许 人 们 登录 。 

因为 私 钥 保 存在 客户 端 ,为 了 私 钥 的 安全 ,通常 使 用 密码 来 对 私 钥 加 以 保护 ,所 以 即使 
计算 机 丢失 , 私 钥 也 不 会 被 窃取 。 
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SSH 服务 器 端的 安装 方法 在 3. 1.4 小 节 中 已 经 介绍 过 了 ,在 Hadoop 集群 中 还 需要 

SSH 客户 端 ,安装 的 方法 是 : 

$sudo apt-get install openssh- client 

安装 完 客 户 端 后 , 它 携 带 了 一 些 其 他 SSH 工具 ,比如 ssh-keygen 用 于 生成 公 钥 / 私 钥 
对 ,scp 用 于 通过 SSH 远程 复制 文件 ,sftp 用 于 实现 安全 FTP 传输 。 
安装 好 后 ,马上 可 以 在 服务 器 进行 测试 。 
hadoop@ master:-$ssh localhost 
一 般 情况 下 ,SSH 会 让 用 户 输入 密码 ,通过 认证 后 ,登录 成 功 ,就 会 进入 基于 SSH 的 新 


命令 行 ,要 退出 ,输入 exit 命令 即 可 。 这 时 ,也 可 以 从 其 他 计算 机 登录 这 台 服 务 器 了 ,如 果 
从 其 他 计算 机 上 登录 失败 ,可 能 是 由 于 防火 墙 不 允许 22 端口 通信 引起 的 。 这 时 需要 打开 防 
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火 墙 的 22 端口 ,或 者 直接 把 防火 墙 关 闭 。 
324 SHES 


Hadoop 集群 中 需要 master 服务 器 能 够 无 密码 登录 slave 服务 器 ,因此 在 master 服务 
器 上 需要 进行 配置 。 生 成 密 钥 对 后 ,把 master 服务 器 的 公 钥 加 入 slave 服务 器 的 ~ /. ssh/ 
authorized-key 文件 中 。 配 置 过 程 如 下 。 


1. 在 master 服务 器 上 生成 密 钥 对 

客户 端 生成 rsa 密 钥 对 

hadoop@ master:~$ssh- keygen -t rsa -P '' -f ~/.ssh/id_rsa 

使 用 ssh-keygen 工具 生成 密 钥 对 ,使 用 rsa 算法 ,保护 私 钥 的 密码 为 空 , 生 成 的 密 钥 对 


放 在 一 /. ssh/ 目 录 下 (一 在 linux 中 代表 用 户 家 目录 ,本 例 中 , 目录 为 /home/hadoop/. 
ssh/) 。 密 钥 对 为 两 个 文件 : id_rsa 和 id_rsa. pub ,id_rsa 为 私 钥 ,id_rsa. pub 为 公 钥 。 


cd ~/.ssh 

~/.ssh$cat id_rsa.pub>> ./authorized keys 

把 公 钥 添加 到 认证 的 密 钥 环 中 。 

2. master 把 自己 的 认证 文件 复制 给 对 方 

在 复制 前 ,需要 目标 服务 器 中 有 . ssh 目录 ,所 以 在 slavel、slave2 的 /home/ Hadoop/ 下 
建立 . ssh 目录 。 

Hadoop@ slavel:~Smkdir .ssh 

Hadoop@ slave2:~Smkdir .ssh 

在 master 服务 器 中 执行 以 下 命令 ,复制 认证 文件 。 

hadoop@ master:-/.ssh$scp authorized keys hadoop@ slavel:/home/hadoop/.ssh/ 

hadoop@ master:-/.ssh$scp authorized keys hadoopé slave2:/home/hadoop/.ssh/ 

AES: 执行 命令 时 ,需要 输入 hadoop 用 户 的 密码 hadoop。 


3. SSH 服 务 器 的 设置 

生成 了 密 钥 对 后 ,需要 配置 SSH 服务 器 的 设置 ,使 客户 端 不 能 用 密码 登录 ,只 能 使 用 公 
钥 登 录 。 

SSH 服务 器 的 配置 文件 在 /etc/ssh/ 目 录 下 , 先 备份 一 下 sshd_config 配置 文件 ,然后 再 
修改 。 

hadoop@ master:-^$cd /etc/ssh 

hadoop@ master:/etc/ssh$sudo cp sshd config sshd config.bak 

hadoop8 master: /etc/ssh$sudo nano sshd config 

编辑 sshd config 文件 ,找到 下 面 三 句 , 把 yes 改 为 no, 并 把 # PasswordAuthentication 
yes 一句 前 的 # 去 掉 。 


PermitRootLogin yes 


‘ GRR Hao Ate ae 


UsePAM yes 
#PasswordAuthentication yes 


为 了 系统 的 安全 ,可 以 指定 只 允许 某 一 台 或 一 些 机 器 登录 该 SSH 服务 器 ,在 sshd_ 
config 中 加 入 下 面 语句 。 


allowusers hadoop@ 192.168.1.2 


意思 为 仅 允 许 192. 168. 1. 2 上 的 hadoop 用 户 登 录 SSH 服务 器 ,这 样 更 安全 些 。 
保存 后 ,重启 SSH 服务 。 


hadoop@ master: /etc/ssh$sudo/etc/init.d/ssh restart 
或 者 
$service ssh restart 


4 无 密码 ssh 登录 对 方 

hadoop@ master:~/.ssh$ssh slavel 

hadoop@ slavel:~$exit # 从 对 方 机 器 中 退出 
hadoop@ master:~/.ssh$ssh slave2 

hadoop@ slavel:~$exit 


TE hadoop 的 安装 中 ,只 需要 master (namenode) , secondary (secondarynamenode) Xf 5& 
到 datanode。 所 以 只 需要 把 master, secondary 的 公 钥 复制 到 slave * 机 器 中 ,并 加 入 slave * 的 
密 钥 环 中 即 可 。 


5 用 scp 复制 文件 

通过 sep 命令 可 以 在 本 地 机 器 与 远程 机 器 之 间 进 行文 件 ( 夹 ) 的 复制 ,在 Linux 下 直接 
使 用 scp 命令 即 可 ,在 Windows 下 可 以 使 用 SSH shell 中 的 SSH secure File Transfer、 
putty 的 姊妹 软件 pscp 以 及 secureCRT 中 的 SecureFX。 下 面 介 绍 中 Linux 服务 器 之 间 如 
何 进行 文件 的 复制 。 

1) 把 本 地 文件 复制 到 远方 Linux 服务 器 中 


hadoop@ master:~/.ssh$sep authorized keys hadoop slavel:/home/hadoop/.ssh/ 

该 命令 的 作用 是 把 本 地 的 authorized keys 复制 到 slavel 机 器 的 /home/hadoop/. ssh/ 
目录 下 ,复制 时 用 Hadoop 用 户 登 录 。 

2) 把 远方 Linux 服务 器 中 的 文件 复制 到 本 地 

hadoop@ master:~$scp hadoop@ slavel:/home/hadoop/aa.txt 


把 slavel 机 器 的 /home/hadoop/ 目 录 下 的 aa. txt 文件 复制 到 本 地 的 当前 目录 下 ,登录 
时 用 hadoop 用 户 名 。 注 意 “. ”代表 本 地 当前 目录 。 

3) 复制 文件 夹 

hadoop@ master:-$scp -r hadoop hadoop@ slavel:/home/hadoop/hadoop 

该 命令 的 作用 是 : 复制 本 地 的 整个 hadoop 文件 夹 到 slavel 机 器 的 /home/hadoop/ 
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hadoop 目录 ,其 中 -r 是 scp 的 参数 ,此 外 还 有 其 他 一 些 参 数 ,含义 如 下 。 -— 
-p 复制 文件 时 保留 源 文件 建立 的 时 间 。 
-q 执行 文件 复制 时 ,不 显示 任何 提示 消息 。 
-r 复制 整个 目录 。 
-v 复制 文件 时 ,显示 提示 信息 。 
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在 3.1.4 小 节 中 ,使 用 了 密码 认证 方式 ,这 一 节 将 采用 新 的 公 钥 认证 方式 ,在 Windows 
客户 端 用 公 钥 登录 Linux 服务 器 。 过 程 如 下 。 
(1) 单 击 SecureCRT 菜单 Tools— Create Public Key 创建 公 钥 ,如 图 3-26 所 示 。 


加 master iu con 
File Edit View Options Transfer Script | Tools | Window Help 
x: 3) d aj, Enter host <Alt+R> $8) Keymap Editor... 
v Create Public Key... b 
ü Convert Private Key to OpenSSH Format... [= 
E-EJ Sessions No Export Public Key from Certificate... 
 192.168.1.10 THOT $1 Public-Key Assistant... 
二 192.168.1.20 ha E zz 
d 192.168.1.30 nea ze tes 
hadoop@master umentation: https 
| 12 8u20- Tino is. oe Command not found 
| ter:-$ 
| hadoop@master i$ E item information as « 
| System: Command no ound 国 
hadoop@master - 
Display Public Key ssh2: AES-256-CTR 14, 18 14 Rows, 4lCols Linux CAP T 
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(2) 在 公 钥 创建 向 导 中 ,选择 非 对 称 加 密 算法 : DSA BK RSA, Linux 服务 器 支持 RSA 
算法 ,因此 这 里 选择 RSA ,如 图 3-27 所 示 。 


Ea i e e A e 
support DSA keys. Many servers may not support RSA 


e B 
DSA | 


<£-$ @)(R—F 0 >) ( m 


图 3-27 选择 公 钥 加 密 算法 


(3) 在 公 钥 创建 向 导 中 ,输入 保护 私 钥 的 密码 ,如 图 3-28 所 示 。 

(4) 在 公 钥 创建 向 导 中 ,选择 密 钥 对 的 长 度 , 如 图 3-29 Bron o 

(5) 在 公 钥 创建 向 导 中 ,选择 私 钥 和 公 钥 的 保存 位 置 , 如 图 3-30 所 示 。 

(6) 将 C: \ Users\ hadoop\ Documents\ Identity. pub 文件 中 的 内 容 复 制 到 master 的 
一 /. ssh/ authorized keys 文件 中 。 


Eee 


Enter a passphrase which protects your encrypted private 
key. The passphrase is optional, but if it is not used, 
the private key will not be encrypted (not recommended) 


Passphrase l 


Confira 


Enter a comment that will be displayed when you are 
asked for your passphrase. It will be stored with your 


Conment hadoop@hadoop-PC 


EZD 取消 


3-28 输入 保护 私 钥 的 密码 


TCI ERN) 


Select the length of your key pair between 512 and 2048 


Key length in 


A lower number provides less security, takes less tine 
to generate and authenticates fast 
provides greater security, takes m me to generate, 
and authenticates more slowly. 1024 the recommended 


ln 


《上 一 步 @)] 仆 一 步 吕 >) mA ) 


图 3-29 选择 键 值 对 的 长 度 


es =) 


Choose a directory and filename for the private key. 
< public key will use the seme directory and 
filename with a pub extension. 
kn © Standard Public Key and VanDyke Private Key 
@ OpenSSH Key format 
Privat 


y 
C: \Wsers\hadoop\Docunents\Identi ty 
Public key 


— (C:Wsers\hadoop\Docunents\Identi ty. pub 


After exiting the Wizard, upload the public key file to 
] the appropriate folder on your SSH server. See help or 
LX refer to your SSH server documentation for more 


a (C 
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(7) 在 SecureCRT 软件 左 侧 的 sessions manager 窗 格 中 ,选择 192. 168. 1. 10 会 话 , 选 
择 右键 弹出 菜单 中 的 “属性 ”命令 ,然后 调整 认证 方式 的 顺序 ,把 公 钥 认证 放 在 第 一 位 ,取消 
密码 认证 ,如 图 3-31 所 示 。 

(8) 在 sessions manager 中 双击 192. 168. 1. 10 会 话 项 ,会 弹出 对 话 框 ,输入 Windows 
宿主 机 的 私 钥 保护 密码 . 即 可 连接 到 192. 168. 1. 10 服务 器 。 下 次 连接 时 ,就 不 用 再 次 输入 
私 钥 保护 密码 了 ,如 图 3-32 所 示 。 


Enter a passphrase to decrypt your private key for 
hadoop@192, 168. 1.10. 


Comment: hadoopGhadoop-PC 
Passphrase: eeeeeseee| 
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3.3 安装 配置 Hadoop 


根据 上 文 介绍 可 知 , Hadoop 在 版 本 上 目前 主要 有 两 个 分 支 : 1.X 版 本 和 2. X 版 本 。 
2.X 版 本 引入 了 许多 新 的 特性 ,最 重要 的 改进 就 是 解决 了 NameNode 的 单 点 问题 。 但 是 ， 
在 版 本 的 选择 上 ,不 是 考虑 使 用 最 新 版 本 ,而 是 考虑 使 用 稳定 版 ,最 好 是 有 大 企业 使 用 过 的 
版 本 。 这 里 选择 1. X 下 的 1. 2.1 版 本 ,可 以 从 镜像 网 站 下 载 .地 址 为 : http://mirrors. 
hust. edu. cn/apache/hadoop/common/hadoop-1. 2. 1/。 

该 版 本 也 分 为 32 位 版 和 64 位 版 ,这 里 选择 下 载 32 位 版 ,文件 名 为 : hadoop-l. 2. 1. 
tar. gzZ。 

Hadoop 的 安装 分 为 四 种 模式 : Windows 模式 .单机 模式 、 伪 分 布 模式 、 分 布 模式 。 

Windows 下 的 Hadoop 安装 需要 Cygwin 软件 ,该 软件 是 Windows 平台 下 模拟 Unix 
环境 的 工具 ,在 安装 Cygwin 的 基础 上 再 安装 Hadoop。 采 用 该 种 方式 在 一 定 程度 上 规避 了 
Linux 知识 的 学 习 , 但 这 种 环境 只 能 用 于 Hadoop 的 学 习 , 而 不 能 用 于 生成 环境 。 所 以 这 里 
不 再 探讨 此 种 安装 方法 。 
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顾名思义 ,单机 安装 就 是 在 一 台 Linux 服务 器 进行 安装 ,这 种 模式 也 是 Hadoop 的 默认 
安装 模式 ,在 这 种 安装 模式 下 Hadoop 的 core-site. xml, mapred-site. xml, hdfs-site. xml 等 
配置 文件 都 是 空 的 ,不 需要 配置 。 

在 单机 模式 下 ,Hadoop 单独 运行 ,不 与 其 他 节点 进行 交互 ,不 使 用 Hadoop 的 分 布 式 文 
件 系统 ,也 不 加 载 任何 的 守护 进程 ,该 模式 主要 用 于 MapReduce 应 用 程序 的 调试 。 安 装 过 
B. 

首先 把 安装 程序 上 传 到 Ubuntu Server 上 ,这 里 使 用 SecureFX 工具 ,非常 方便 快捷 。 
上 传 的 位 置 为 /home/hadoop/ 目 录 。 


1. 解压 hadoop 
hadoop@ master:~$tar zxvf ./hadoop-1.2.1.tar.gz 


把 当前 路 径 下 的 hadoop-1. 2. 1. tar. gz 进行 解压 ,得 到 hadoop-1. 2. 1 子 目 录 , 完 整 路 径 
为 /home/hadoop/hadoop-1. 2. 1/。 


hadoop@ master:~$mv hadoop- 1.2.1/ hadoop 

为 了 方便 使 用 ,这 里 把 hadoop-1. 2. 1 路 径 改 名 为 hadoop. 
2 配置 Hadoop 的 环境 变量 

hadoop@ master:~$sudo nano /etc/profile 


在 文件 的 尾部 加 入 以 下 两 句 。 


export HADOOP HOME- /home/hadoop/hadoop 
export PATH= $PATH:$HADOOP_HOME/bin 


3. 启动 Hadoop 
在 Hadoop/bin 目录 下 ,有 start-all. sh 文件 , 它 就 是 Hadoop 的 启动 文件 ,执行 它 即 可 。 


hadoop@ master:~$./start-all.sh 


Q) 提示 : 在 启动 过 程 中 ,如 果 有 localhost: Error: JAVA_HOME is not set 这 样 的 
错误 。 则 到 hadoop/conf 目录 下 ,找到 hadoop-env. sh 文件 ,把 井 export JAVA. HOME— 
/usr/lib/j2sdkl.6 — 4) af 69" 5 "3c 4. 5 SERA Java 的 安装 目录 ,如 : export JAVA_ 
HOME  / usr/lib/jdk., 

4 运行 jps 查看 Java 进程 

hadoop@ master: /hadoop/bin$jps 

2703 Jps 

可 以 看 出 并 没有 Java 进程 在 运行 ,是 因为 Hadoop 运行 在 单机 模式 下 ,没有 NameNode 
和 JobTracker 进程 的 原因 。 


5 查看 HDS 文件 系统 
hadoop@ master:~/hadoop/binShadoop fs - 1s 


Found 17 items 


-rwxr-xr-x 1 hadoop hadoop 2810 2013- 07- 23 06:26 /home/hadoop/hadoop/ 
bin/rcc 
-rwxr-xr-x 1 hadoop hadoop 1166 2013- 07- 23 06:26 /home/hadoop/hadoop/ 


bin/start-all.sh 


-rwxr-xr-X 1 hadoop hadoop 1116 2013- 07- 23 06:26 /home/hadoop/hadoop/ 
bin/stop-balancer.sh 
-rwxr-xr-X 1 hadoop hadoop 5064 2013- 07- 23 06:26 /home/hadoop/hadoop/ 


bin/hadoop- daemon.sh 


至 此 说 明 Hadoop 单机 模式 已 经 安装 成 功 。 


33e 伪 分 布 模式 的 安装 


所 谓 “ 伪 分 布 模式 ”是 指 Hadoop 运行 在 一 个 计算 机 上 , 即 当 NameNode, 又 当 
DataNode, 或 者 说 即 是 JobTracker, 又 是 TaskTracker。 没 有 所 谓 的 在 多 台 计 算 机 上 进行 真 
正 的 分 布 式 计 算 , 故 称 为 “ 伪 分 布 式 ”。 这 种 模式 增加 了 代码 调试 功能 。 

在 具体 配置 之 前 , 先 来 看 一 下 Hadoop 的 目录 结构 ,与 安装 及 运行 有 关 的 目录 有 以 下 几 
个 目录 : bin .conf logs 等 ,下 面 用 表格 分 别 介绍 ,如 表 3-1 MK 3-2 所 示 。 


表 3-1 $ HADOOP_HOME/bin 目录 
文件 名 称 说 明 


用 于 执行 hadoop 脚本 命令 ,被 hadoop-daemon. sh 调用 执行 ,也 可 以 单独 执行 ,一 
切 命令 的 核心 


通过 执行 hadoop 命令 来 启动 /停止 一 个 守护 进程 (daemon) 

该 命令 会 被 bin 目录 下 面 所 有 以 start 或 stop 开头 的 所 有 命令 调用 来 执行 命令 ， 
hadoop-daemons. sh 也 是 通过 调用 hadoop-daemon. sh 来 执行 命令 的 ,而 hadoop- 
daemon. sh 本 身 就 是 通过 调用 hadoop 命令 来 执行 任务 


hadoop 


hadoop-daemon. sh 


start-all. sh 全 部 启动 , 它 会 调用 start-dfs. sh 及 start-mapred. sh 
start-dfs. sh 启动 NameNode、DataNode 及 SecondaryNameNode 
start-mapred. sh 启动 MapReduce 

stop-all. sh 全 部 停止 , 它 会 调用 stop-dfs. sh 及 stop-mapred. sh 
stop-balancer. sh 停止 balancer 

stop-dfs. sh 停止 NameNode、DataNode 及 SecondaryNameNode 


stop-mapred. sh 停止 MapReduce 


表 3-2 $HADOOP_HOME/conf 目录 下 文件 及 其 作用 

文件 名 称 说 明 

Hadoop 核心 全 局 配置 文件 ,可 以 其 他 配置 文件 中 引用 该 文件 中 定义 的 属性 ,如 在 
hdfs-site. xml 及 mapred-site. xml 中 会 引用 该 文件 的 属性 

该 文件 的 模板 文件 存在 于 $ HADOOP_HOME/src/core/core-default. xml, 可 将 模 
板 文 件 复 制 到 conf 目录 ,再 进行 修改 


core-site. xml 


Rae Ate 
E 

— 续 表 

XH AH 说 了 明 


hadoop-env. sh Hadoop 环境 变量 
HDFS 配置 文件 ,该 模板 的 属性 继承 于 core-site. xml 


hdfs-site. xml 该 文件 的 模板 文件 存在 于 $ HADOOP_HOME/src/hdfs/hdfs-default. xml, 可 将 模 
板 文件 复制 到 conf 目录 ,再 进行 修改 


MapReduce 的 配置 文件 ,该 模板 的 属性 继承 于 core site. xml 
mapred-site. xml | 该 文件 的 模板 文件 存在 于 $ HADOOP_HOME/src/mapred/mapredd-default. xml, 
可 将 模板 文件 复制 到 conf 目录 ,再 进行 修改 


用 于 设置 所 有 secondaryNameNode 的 名 称 或 IP, 每 一 行 存 放 一 个 。 如 果 是 名 称 ， 
那么 设置 的 secondaryNameNode 名 称 必 须 在 /etc/hosts 有 IP 映射 配置 


用 于 设置 所 有 slave 的 名 称 或 也, 每 一 行 存放 一 个 。 如 果 是 名 称 , 那 么 设置 的 slave 
名 称 必 须 在 /etc/hosts 有 IP 映射 配置 


masters 


slaves 


$ HADOOP_HOME/lib 目录 存放 的 是 Hadoop 运行 时 依赖 的 jar 包 ,Hadoop 在 执行 
时 会 把 lib 目录 下 面 的 jar 全 部 加 到 classpath 中 。 


$ HADOOP_HOME/logs 目录 存放 的 是 Hadoop 运行 的 日 志 ,查看 日 志 对 寻找 
Hadoop 运行 错误 非常 有 帮助 。 

具体 安装 过 程 如 下 所 示 。 

(1) 修改 hadoop/conf 下 的 core-site. xml ,该 文件 配置 NameNode 的 主机 名 和 端口 号 。 
命令 及 文件 内 容 如 下 : 


hadoop@ master:~/hadoop/conf$sudo nano core- site.xml 
«configuration» 
«property» 
<name> fs.default.name« /name> 
«value» localhost : 9000< /value> 
</property> 
</configuration> 


(2) 修改 hadoop/conf 下 的 hdfs-site. xml 文件 ,在 该 文件 内 配置 分 布 式 文件 系统 的 副 
本 数 ,因为 是 伪 分 布 模式 ,所 以 副本 数 为 1。 文件 内 容 如 下 : 


<configuration> 
<property> 
<name> dfs.replication< /name> 
<value> 1< /value> 
</property> 
</configuration> 


(3) 修改 hadoop/conf 下 的 mapred-site. xml 文件 ,该 文件 的 参数 指定 了 JobTracker 的 
主机 名 和 端口 号 ,文件 内 容 如 下 : 


«configuration» 
«property» 
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«name» mapred. job.tracker« /name> 
«value» localhost :9001« /value> 
</property> 


< /configuration» 

(4) 格式 化 文件 系统 。 在 运行 Hadoop 之 前 需要 先 格式 化 文件 系统 ,命令 如 下 : 
hadoop@ master:~/hadoop/bin$hadoop namenode - format 

(5) 运行 hadoop。 

hadoop@ master:~/hadoop/bin$start-all.sh 

(6) 运行 Jps 查看 Java 进程 。 


hadoop@ master:~/hadoop/bin$jps 
3569 Jps 

3409 JobTracker 

3202 DataNode 

3314 SecondaryNameNode 

3096 NameNode 

3517 TaskTracker 


可 以 看 出 已 经 运行 的 进程 有 NameNode、 SecondaryNameNode、 DataNode、 JobTracker 、 
TaskTracker 共 五 个 进程 。 
(7) 停止 hadoop。 


hadoop@ master:~/hadoop/bin$stop-all.sh 
Warning: $HADOOP HOME is deprecated 
stopping jobtracker 

localhost: stopping tasktracker 
stopping namenode 

localhost: stopping datanode 

localhost: stopping secondarynamenode 


eim. 启动 时 显示 Warning; $ HADOOP HOME is deprecated 提示 信息 ,屏蔽 
的 方法 如 下 。 


在 /etc/profile 中 加 入 
export HADOOP HOME WARN SUPPRESS- lk 


433 分 布 式 安装 


分 布 式 安装 采用 如 图 3-21 所 示 的 结构 ,由 三 台 Linux 服务 器 组 成 ,它们 的 网 络 适配器 
采用 仅 主机 (host only) ,宿主 机 Windows 中 的 VMnetl 的 IP 设 为 与 虚拟 机 集群 在 同一 网 
Bt. 这样 ,Windows 与 Linux 服务 器 可 以 互相 访问 ,方便 在 Windows 下 使 用 Eclipse 开发 
调试 Hadoop 程序 。 服 务 器 集群 的 配置 如 表 3-3 所 示 。 

安装 后 的 Linux 服务 器 需要 配置 IP hosts 文件 .SSH 服务 器 ,解压 hadoop-1. 2. 1. tar. 
gz RCH Hadoop 环境 变量 等 ,请 参见 3. 1.6、3.1.7、3. 2.4、3. 3. 1 小节, 这 里 不 再 重复 。 


1 CRB Hadoop cg iim 


表 3-3 集群 中 各 机 器 配置 表 


主机 名 | hadoop 角色 Jps 运行 结果 IP 地 址 用 户 名 /密码 安装 路 径 
master master NameNode 192. 168. 1. 10 
slaves SecondaryNameNode 

JobTracker 

TaskTracker 

DataNode hadoop/hadoop | /home/hadoop/hadoop 
slavel slaves DataNode 192. 168. 1. 20 

TaskTracker 
slave2 slaves DataNode 192. 168. 1. 30 

TaskTracker 


1. 修改 hadoop/conf/masters 文件 
这 个 文件 存储 着 master 节点 的 IP 或 机 器 名 ,建议 使 用 机 器 名 ,每 行 一 个 机 器 名 : 


hadoop@ master:~/hadoop/conf$sudo nano masters 
#localhost 
master 


因为 Master 节点 的 名 字 叫 master, 所 以 文件 内 容 为 masters 
2 修改 hadoop/confislavers 文件 


hadoop@ master:~/hadoop/conf$sudo nano slaves 
#localhost 

master 

slavel 

slave2 


AFTE: iX Y master 机 器 既是 Hadoop 集群 中 的 master, 又 是 集群 中 的 slave, 


3. 配置 环境 变量 /etcfprofile 

#hadoop environment 

export HADOOP HOME= /home/hadoop/hadoop 
export PATH= SPATH:SHADOOP HOME/bin 


ARE. 这 个 步骤 在 每 台 机 器 上 都 要 修改 一 次 。 
4 在 master 机 器 上 编辑 hadoop-envsh 


export JAVA HOME- /usr/lib/jdk 


5. 在 master 机 器 上 编辑 core-sitexml 


< configuration» 
<property> 
<name> fs.default .name< /name> 
«value» hdfs://master:9000< /value> 
< /property> 
<property> 
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<name> hadoop. tmp .dir« /name» 
«value» /home/hadoop/hadoop/tmp« /value» 
« /property» 
</configuration> 
hadoop. tmp. dir 指定 了 所 有 上 传 到 Hadoop 的 文件 的 存放 目录 ,所 以 要 确保 这 个 目录 
是 足够 大 的 。 
fs. default. name 指定 NameNode 的 IP 地 址 和 端口 号 ,默认 值 是 file:/// ,表示 使 用 本 
地 文件 系统 ,用 于 单机 非 分 布 式 模式 。 
建立 tmp 文件 夹 : 


hadoop@ master:~/hadoop$mkdir tmp 
AMER: tmp 文件 夹 在 /home/ hadoop/hadoop/ 下 ,路 径 为 : /home/hadoop/hadoop/tmp。 


6 在 master 机 器 上 编辑 hdfs-site xml 
该 文件 中 设置 与 HDFS 相关 的 设 定 ,如 文件 副本 的 个 数 、 块 大 小 及 是 否 使 用 强制 权限 
等 ,此 中 的 参数 定义 会 覆盖 hdfs-default. xml 文件 中 的 默认 配置 。 


<configuration> 
«property» 
<name> dfs.replication< /name> 
<value> 3< /value> 
</property> 
< /configuration» 
7. 在 master 机 器 上 编辑 mapred-sitexml 
配置 MapReduce 的 相关 设 定 , 如 reduce 任务 的 默认 个 数 、 任 务 所 能 够 使 用 内 存 的 默认 
上 下 限 等 ,此 中 的 参数 定义 会 覆盖 mapred-default. xml 文件 中 的 默认 配置 。 


«configuration» 
«property» 
«name» mapred. job.tracker« /name> 
«value» master:9001« /value> 
« /property» 
</configuration> 
8. 把 hadoop 安装 文件 夹 复制 到 其 他 主机 
hadoop@ master:~$scp -r hadoop hadoop@ slavel:/home/hadoop/hadoop 
hadoop@ master:-$scp -r hadoop hadoop slave2:/home/hadoop/hadoop 
e JER: linux F sep 传 文件 时 错误 scp:/usr/tools:not a regular file 不 能 成 功 传送 
解决 方案 。 
(1) 有 可 能 没 权限 ,执行 chmod 777 命令 。 
(2) 在 使 用 scp 时 加 上 -r 参数 。 
(3) 不 要 使 用 绝对 路 径 , 而 使 用 相对 路 径 。 如 : 


hadoop@ master:~$scp -r hadoop hadoop@ slavel:/home/hadoop/hadoop 
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此 命令 在 /home/hadoop 下 执行 的 ,该 路 径 下 有 hadoop 文件 夹 ,复制 到 slavel 机 器 上 
49 /home/hadoop/hadoop 下 。 


9. hadoop 启动 
1) 格式 化 一 个 新 的 分 布 式 文件 系统 


hadoop@ hadoop:~$ed hadoop 
hadoop@ hadoop:~/hadoop$bin/hadoop namenode - format 


2) 启动 所 有 节点 
启动 方式 1: 


Sbin/start-all.sh 


同时 启动 HDFS 和 Map/Reduce. 

启动 方式 2: 

启动 Hadoop 集群 需要 启动 HDFS 和 Map/Reduce. 
在 分 配 的 NameNode 上 ,运行 下 面 的 命令 : 


$bin/start-dfs.sh( 单 独 启 动 HDFS 集 群 ) 
Sbin/start-mapred.sh (单独 启动 Map/Reduce) 


启动 过 程 如 下 : 


hadoop@ master:~/hadoop$bin/start- all.sh 

starting namenode, logging to/hame/hadoop/hadoop/ libexec/ . . /1ogs/hadoop- hadoop- 

namenode- master.out 

Slavel: starting datanode, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- hadoop- 
datanode- slavel.out 

Slave2: starting datanode, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- hadoop- 
datanode- slave2.out 

The authenticity of host 'master (127.0.1.1)' can't be established 

ECDSA key fingerprint is 3b:40:1b:69:a9:fc:28:18:02:b1:be:28:43:c3:d8:58 

Are you sure you want to continue connecting (yes/no)? yes 

master: Warning: Permanently added 'master' (ECDSA) to the list of known hosts 

master: starting secondarynamenode, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- 
hadoop- secondarynamenode- master.out 

starting jobtracker, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- 

hadoop- jobtracker- master.out 

slavel: starting tasktracker, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- hadoop 
- tasktracker- slavel.out 

slave2: starting tasktracker, logging to /home/hadoop/hadoop/libexec/../logs/hadoop- hadoop 
—tasktracker- slave2.out 


10. 用 jps 查看 Java 进程 

在 master 服务 器 上 的 结果 。 
hadoop@ master:~/hadoop$jps 
3265 TaskTracker 


3315 Jps 
2947 DataNode 


3061 SecondaryNameNode 
2838 NameNode 


3148 JobTracker 
TE slavel 和 slave2 上 的 结果 。 


hadoop@ s1avel:/etc/ssh$jps 
2512 DataNode 

2578 TaskTracker 

2626 Jps 


p)ar: 当 用 jps 查看 Java 进程 时 ,可 能 在 master 机 器 中 没有 namenode, 或 者 是 在 
slave 机 器 中 没有 datanode 进程 ,这 是 由 于 每 次 关闭 服务 器 时 ,没有 执行 stop-all. sh 命令 停 
止 Hadoop 而 造成 的 ,解决 方法 如 下 。 

(1) 先 运行 stop-all. sh. 

(2) 检查 conf/masters 和 conf/slaves 文件 ,确保 配置 没有 错误 。 

(3) 格式 化 namdenode, 不 过 在 这 之 前 要 先 删 除 原 目 录 , 即 core-site. xml 下 配置 的 
<name> hadoop. tmp. dir 一 人 /name 二 所 指向 的 目录 (在 这 个 例子 中 目录 为 : /home/hadoop/ 
tmp) ,删除 后 切记 要 重新 建立 所 需 的 tmp 目录 ,然后 运行 hadoop namenode -format. 

(A) 运行 start-all. sh. 

再 用 jps 命令 在 每 个 机 器 中 查看 Java 进程 就 应 该 没 问 题 了 。 以 后 注意 每 次 关机 前 ,请 
记 住 执行 stop-all. sh. 

11. 通过 Web 页 面 查看 Hadoop 状况 


在 客户 端的 浏览 器 地 址 栏 中 输入 : http://192. 168. 1. 10:50070 ,查看 系统 HDFS 的 状 
况 ,如 图 3-33 所 示 。 


NameNode ' master:9000' 


Started: Tue Sep 16 02:47:08 CST 2014 
Version: 1.2.1, r1503152 

Compiled: Mon Jul 22 15:23:09 PDT 2013 by mattf 
Upgrades: There are no upgrades in progress. 


Browse the filesystem 
Namenode Logs 


Cluster Summary 


20 files and directories, 7 blocks = 27 total. Heap Size is 53.02 NB / 966.69 NB (5%) 


Configured Capacity g 54.97 GB 
DFS Used : 274.97 NB 
Non DFS Used : 6.96 GB 
DFS Remaining : 47.74 GB 
DFS Used% : 0.49 X 
DFS Remaining’ : 86.85 % 
Live Nodes : 3 
Dead Nodes : 0 
Decommissioning Nodes 0 
Number of Under-Replicated Blocks 0 


NameNode Storage: 


图 3-33 通过 Web 页 面 查看 系统 状况 
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在 客户 端 浏览 器 的 地 址 栏 中 输入 : http://192. 168. 1. 10: 50030. 查看 系统 的 
MapReduce 状况 ,如 图 3-34 所 示 。 


Quick Links 


master Hadoop Map/Reduce Administration 


State: RUNNING. 
Started: Thu Sop 04 162407 CST 2014 

Version: 12 1, 11503152 

Compiled: Mon Jul 22 15:23:09 PDT 2013 by matt 
Identifier: 201400041624 

SafeMode: OFF 


Cluster Summary (Heap Size is 15.5 MB/966.69 MB) 


Pep " | Reduce | Lue [nodes | Occupied | Keates | Reserved | FReguca | Map Task | regt | avg. | Blacklsted | Grayisted | Excluded 
Tasks | Taska | Submissions Map Siots | "Sic? | map stots | PEDE" | Capacity | Caniny | TaskwNode | Nodes | Nodes | Nodes 
o D 5 1—]s 3 5 a B 2 zo D 5 


Scheduling Information 


Queue Name | Stato | Scheduling Information | 
default Turning] WA | 


Filter (Jobid, Priority, User, Name) 
Example; ‘asor smth 3200” wl at by mit only Tao usar Td and 3200 in a ode: 


Running Jobs 


= 


3-34 通过 网 页 查看 系统 MapReduce 状况 


12. 停止 hadoop 

hadoop@ master: ^ /hadoop$bin/stop- all.sh 
stopping jobtracker 

master: stopping tasktracker 
slavel: stopping tasktracker 
slave2: stopping tasktracker 
stopping namenode 

master: stopping datanode 

slavel: stopping datanode 

slave2: stopping datanode 

master: stopping secondarynamenode 
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1. NameNode 相关 命令 

NameNode 是 Hadoop 集群 中 至 关 重 要 的 一 个 节点 ,如 果 NameNode 出 现 故障 ,整个 集 
群 将 会 瘫痪 ,因此 对 NameNode 的 管理 尤为 重要 。Hadoop 的 Shell 中 有 NameNode 命令 ， 
命令 选项 说 明 如 表 3-4 所 示 , 可 以 进行 NameNode 的 格式 化 升级. 回 滚 等 操作 ,输入 
hadoop namenode -help 命令 将 会 显示 支持 的 命令 列表 。 


hadoopemaster:~/hadoop/binShadocp namenode -help 


用 法 : hadoop NameNode [-format [-force ] [-nonInteractive ]] | [-upgrade] | 
L-rollback] | [-finalize] | [-importCheckpoint] | [-recover [ -force ] ]. 
例如 : 格式 化 NameNode。 


hadoop@ master: - /hadoop/binShadoop namenode - format 


表 3-4 NameNode 命令 选项 说 明 


命令 选项 di 述 
-format 格式 化 NameNode。 它 启动 NameNode, 格 式 化 NameNode, 之 后 关闭 NameNode 
-upgrade 分 发 新 版 本 的 Hadoop 后 ,NameNode 应 以 upgrade 选项 启动 
-sollback IA 回 滚 到 前 一 版 本 。 这 个 选项 要 在 停止 集群 ,分 发 旧 的 Hadoop 版 


finalize 会 删除 文件 系统 的 前 一 状态 。 最 近 的 升级 会 被 持久 化 ,rollback 选项 将 
再 不 可 用 ,升级 终结 操作 后 , 它 会 停 掉 NameNode 


从 检查 点 目录 装载 镜像 并 保存 到 当前 检查 点 目录 ,检查 点 目录 由 fs. checkpoint. 
dir 指定 


-finalize 


-importCheckpoint 


2. SecondaryNameNode 命令 
运行 SecondaryNameNode 命令 对 EditsLog 进行 操作 (如 获取 大 小 等 ) ,命令 选项 说 明 
如 表 3-5 所 示 。 
用 法 : hadoop secondarynamenode [-checkpoint [force]] | [-geteditsize] 。 
表 3-5 SecondaryNameNode 命令 选项 说 明 
命令 选项 描 述 


如 果 EditLog ff] X /|— = fs. checkpoint. size, 启 动 SecondaryNameNode 的 检查 
点 过 程 。 如 果 使 用 了 -force, 将 不 考虑 EditLog 的 大 小 


-geteditsize 打印 EditLog 大 小 


-checkpoint [force] 


3. DataNode 命令 
运行 一 个 HDFS 的 DataNode 命令 选项 说 明 如 表 3-6 所 示 。 
用 法 : hadoop datanode [-rollback]。 


表 3-6 DataNode 命令 选项 说 明 


命令 选项 d 述 
将 DataNode 回 滚 到 前 一 个 版 本 。 这 需要 在 停止 DataNode, 分 发 旧 的 Hadoop 版 本 之 
-rollback 
后 使 用 
4 dfsadmin 命令 


运行 一 个 HDFS 的 dfsadmin 客户 端 ,命令 选项 说 明 如 表 3-7 所 示 。 

用 法 : hadoop dfsadmin [GENERIC OPTIONS] [-report] [-safemode enter | leave | 
get | wait] [-refreshNodes ] [-finalizeUpgrade ] [-upgradeProgress status | details | force] 
[-metasave filename ] [-setQuota < quota > < dirname >... < dirname > ] [-clrQuota 
<dirname>...<dirname> ] [-help [emd]]. 


表 3-7 dfsadmin 命令 选项 说 明 


命令 选项 描 R 
-report 报告 文件 系统 的 基本 信息 和 统计 信息 
安全 模式 维护 命令 。 安 全 模式 是 NameNode 的 一 个 状态 ,这 种 状态 
下 ,NameNode 


CD 不 接受 对 名 字 空 间 的 更 改 ( 只 读 ) 
(2) 不 复制 或 删除 块 


-safemode enter | leave 


col eet NameNode 会 在 启动 时 自动 进入 安全 模式 , 当 配 置 的 块 最 小 百分比 数 满足 
最 小 的 副本 数 条 件 时 ,会 自动 离开 安全 模式 。 安 全 模式 可 以 手动 进入 ,但 是 
这 样 也 必须 手动 关闭 安全 模式 
重新 读 取 hosts 和 exclude 文件 ,更 新 允许 连 到 NameNode 的 或 那些 需要 退 
-refreshNodes 


出 或 人 编 的 DataNode 的 集合 


终结 HDFS 的 升级 操作 。DataNode 删除 前 一 个 版 本 的 工作 目录 ,之 后 
NameNode 也 这 样 做 。 这 个 操作 完结 整个 升级 过 程 


-finalizeUpgrade 


"upgradePiogress 请 求 当前 系统 的 升级 状态 ,状态 的 细节 ,或 者 强制 升级 操作 进行 


status | details | force 


保存 NameNode 的 主要 数据 结构 到 hadoop. log. dir 属性 指定 的 目录 下 的 
— filename 3c fF. Xf F ii (fj 4 — 3i , — filename > rP d & — 47 WA Sz 
对 应 

-metasave filename (1) NameNode 收 到 的 DataNode 的 心跳 信号 

(2) 等 待 被 复制 的 块 

(3) 正在 被 复制 的 块 

(4) 等 待 被 删除 的 块 


1) 返回 安全 模式 是 否 开启 

hadoop@ master:~/hadoop/bin$hadoop dfsadmin - safemode get 
2) 进入 安全 模式 

hadoop@ master:~/hadoop$bin/hadoop dfsadmin - safemode enter 
3) 离开 安全 模式 

hadoop@ master:~/hadoop/bin$hadoop dfsadmin - safemode leave 
4) 检查 HDFS 状态 ,包括 DN 信息 

hadoop@ master:~/hadoop$bin/hadoop dfsadmin - report 

查看 HDFS 基本 统计 信息 。 


5. fsck 命令 

D 运行 HDFS 文件 系统 检查 工具 

参考 Fsck 命令 选项 说 明了 解 更 多 ,如 表 3-8 所 示 。 

用 法 : hadoop fsck [GENERIC OPTIONS ]- path [-move | -delete | -openforwrite] 
[files [-blocks [-locations | -racks]]]. 
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表 3-8 fsck 命令 选项 说 明 


命令 选项 描 3 命令 选项 i x 
<path> 检查 的 起 始 目录 -files 打印 出 正 被 检查 的 文件 
-move 移动 受 损 文 件 到 /lost 十 found -blocks 打印 出 块 信息 报告 
-delete 删除 受 损 文件 -locations — | 打印 出 每 个 块 的 位 置信 息 
-openforwrite 打印 出 写 打开 的 文件 -racks 打印 出 data-node 的 网 络 拓扑 结构 


2) 检查 HDFS 块 状态 ,是否 损坏 


hadoop fsck/ 

AMER: 此 命令 运行 时 间 较 长 。 
3) 检查 HDFS 块 状态 ,删除 损坏 块 
hadoop fsck/- delete 


6 job 命令 

该 命令 用 于 和 MapReduce 作业 进行 交互 。 参 考 job 命令 选项 说 明了 解 更 多 ,如 表 3-9 
所 示 。 

用 法 : hadoop job [GENERIC OPTIONS] [-submit<job-file>] | [-status<job-id>] | 
[-counter-job-id— < group-name > < counter-name 二 ] | [-kill  job-id >] | [-events 
<job-id><from-event- # >< #-of-events>] | [-history [all ]-jobOutputDir- ] | [-list 
[all]] | [-kill-task- task-id— ] | [-fail-task<task-id>], 


33-9 job 命令 选项 说 明 


命令 选项 d xk 
-submit<job-file> 提交 作业 
-status<job-id> 打印 map 和 reduce 完成 百分比 和 所 有 计数 器 
Deren TY | nma 
-kill<job-id> 杀 死 指定 作业 


-events<job-id >< from-event- # > 


ee eS 打印 给 定 范围 内 jobtracker 接收 到 的 事件 细节 


-history[all ]}<jobOutputDir>4T Ep fF Mh AY 4 ARM RRA TRA 
-history [all]<jobOutputDir> 的 细节 。 更 多 地 关于 一 个 作业 的 细节 比如 成 功 的 任务 ,做 过 的 任务 
尝试 等 信息 可 以 通过 指定 [al 中 ] 选 项 查看 


-list [all] -list [al] 显 示 所 有 作业 。-list 只 显示 将 要 完成 的 作业 
-kill-task<task-id> 杀 死 任务 。 被 杀 死 的 任务 不 会 不 利于 失败 尝试 
-fail-task<task-id> 使 任务 失败 。 被 失败 的 任务 会 对 失败 尝试 不 利 


1) 列 出 正在 运行 的 job 


hadoop job - list 


62 
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如 : 


hadoop@ master:~/hadoop/bin$hadoop job - list 
0 jobs currently running 


JobId State StartTime UserName Priority SchedulingInfo 

2) 杀 死 某 个 进 hadoop 进程 

hadoop job -kill«job-id»  £kill job 

7. pipes 命令 

运行 pipes 作业 ,命令 选项 说 明 如 表 3-10 所 示 。 

表 3-10 pipes 命令 选项 说 明 
命令 选项 fi 3x 

-conf<path> 作业 的 配置 
-jobconf<key=value>,<key=value>, ... 增加 /覆盖 作业 的 配置 项 
-input<path> 输入 目录 
-output<path> 输出 目录 
-jar<jar file> jar 文件 名 
-inputformat<class> InputFormat 类 
-map<class> Java Map 类 


-partitioner<class> 


Java Partitioner 


-reduce<class> 


Java Reduce 类 


-writer<class> 


Java RecordWriter 


-program<executable> 


可 执行 程序 的 URI 


-reduces<num> 


reduce 个 数 


用 法 : hadoop pipes [-conf<path> ] [-jobconf<key=value>.<key=value>, ...] 
L'input path ] [-output — path 27 ] [-jar<jar file>] [-inputformat <class >] [-map 
— class] [-partitioner < class >] [-reduce < class >] [-writer < class >] [-program 


<executable> ] [-reduces<num> ]。 


8. jobtracker 命令 
运行 MapReduce job Tracker 节点 。 
用 法 : hadoop jobtracker。 


9 tasktracker 命令 
运行 MapReduce 的 task Tracker 节点 。 
用 法 : hadoop tasktracker。 


10 balancer 命令 


运行 集群 平衡 工具 。 管 理 员 可 以 简单 地 按 Ctrl+C 组 合 停止 平衡 过 程 。 


如 表 3-11 所 示 。 
用 法 : hadoop balancer [-threshold<threshold> ]。 


命令 选项 说 明 


表 3-11 balancer 命令 选项 说 明 


命令 选项 d 述 
-threshold<threshold> 磁盘 容量 的 百分比 。 这 会 覆盖 默认 的 阔 值 


也 可 以 执行 : 


-/bin/start-balancer.sh 


11. version 命令 

打印 版 本 信息 。 

用 法 : hadoop version, 

hadoop@ master:~/hadoop/bin$hadoop version 

Hadoop 1.2.1 

Subversion https: //svn.apache .org/repos/asf /hadoop/common/branches/branch- 
L 2 -r 1503152 

Compiled by mattf on Mon Jul 22 15:23:09 PDT 2013 

From source with checksum 6923c86528809c4e7e6f493béb413a9a 

This command was run using /home/hadoop/hadoop/hadoop- core- 1.2.1.jar 


3.4 WW NameNode 分 布 式 安装 Hadoop 2. 2. 0 


鉴于 Hadoop 2.X 已 经 发 布 , 并 且 加 入 了 一 些 新 的 特征 ,其 中 最 重要 的 就 是 加 入 了 双 
NameNode, 克 服 了 Hadoop 1.X 中 NameNode 的 单 点 问题 。 本 节 以 Hadoop 2.2. 0 为 蓝本 
介绍 一 下 它 的 安装 方法 。 

在 Hadoop 2. X 中 通常 由 两 个 NameNode 组 成 ,一 个 处 于 active 状态 , 另 一 个 处 于 
standby RA, Active NameNode 对 外 提供 服务 ,而 Standby NameNode 则 不 对 外 提供 服 
务 , 仅 同步 active namenode 的 状态 ,以 便 能 够 在 它 失效 时 快速 进行 切换 。 

Hadoop 2. 0 官方 提供 了 两 种 HDFS HA 的 解决 方案 ,一 种 是 NFS, 另 一 种 是 QJM。 这 
里 使 用 简单 的 QJM。 在 该 方案 中 , 主 备 NameNode 之 间 通 过 一 组 JournalNode 同步 元 数据 
信息 ,一 条 数据 只 要 成 功 写 入 多 数 JournalNode, 即 认为 写 和 成功 。 通 常 配置 奇数 个 
JournalNode, 

这 里 还 配置 了 一 个 Zookeeper 集群 ,用 于 ZKFC(DFSZK FailoverController) iit [i £z f . 
集群 规划 如 表 3-12 所 示 。 当 Active NameNode 挂 起 ,会 自动 切换 Standby NameNode 为 
standby 状态 。 

X332. 集群 规划 
主机 名 IP 安装 软件 运行 的 进程 


hadoop、 NameNode, DataNode, QuorumPeerMain, JournalNode、 
zookeeper DFSZKFailoverController, ResourceManager , NodeManager 


hadoop01 192. 168. 1. 10 


hadoop, NameNode, DataNode, QuorumPeerMain, JournalNode, 


hi 02 192. 168. 1. 20 
soon $ zookeeper DFSZKFailoverController, NodeManager 


续 表 


主机 名 IP 安装 软件 运行 的 进程 
hadoop、 

hadoop03 192. 168. 1. 30 DataNode QuorumPeerMain ,JournalNode, NodeManager 
zookeeper 


3a1 BS ake 集群 


Zookeeper 顾名思义 “动物 园 管理 员 ”, 他 是 管 大 象 (Hadoop) 、 蜜 蜂 (Hive) 、 小 猪 (Pig) 的 
管理 员 , Apache HBase, Apache Solr, LinkedIn sensei 等 项 目 中 都 采用 了 Zookeeper. 
Zookeeper 是 一 个 分 布 式 的 ,开放 源码 的 分 布 式 应 用 程序 协调 服务 ,Zookeeper 是 以 Fast 
Paxos 算法 为 基础 ,实现 同步 服务 ,配置 维护 和 命名 服务 等 分 布 式 应 用 。 

下 载 zookeeper-3. 4. 5. tar. gz, 并 把 它 上 传 到 hadoop 集群 。 

下 载 地 址 为 : http://zookeeper. apache. org/releases. html # download, 


1 解压 


hadoop@ hadoop01:-$tar - zxvf zookeeper- 3.4.5.tar.gz 
hadoop@ hadoop01:~$mv zookeeper- 3.4.5 zookeeper 


2 修改 配置 


hadoop@ hadoop01 : »$cd zookeeper/conf 
hadoop@ hadoop01:~/zookeeper/conf$ep zoo sample.cfg  zoo.cfg 
nano zoo.cfg 


修改 : 
dataDir- /home/hadoop/zookeeper/tmp 
在 最 后 添加 : 


SerVer.1=hadoop01:2888:3888 
server.2-hadoop02:2888:3888 
server.3-hadoop03:2888:3888 


保存 退出 。 
然后 创建 一 个 tmp 文件 夹 。 


mkdir /home/hadoop/zookeeper/tmp 
再 创建 一 个 空 文件 。 


hadoop@ hadoop01:~/zookeeper/tmp$touch myid 
最 后 向 该 文件 写 入 ID. 


hadoop@ hadoop01 :~/zookeeper/tmpSecho 1>myid 


第 3 章 Heo 


3. 将 配置 好 的 Zookeeper 复制 到 其 他 节点 


hadoop@ hadoop01:-$scp -r zookeeper hadoop@ hadoop02: /home/hadoop/zookeeper 
hadoop@ hadoop01:-$scp -r zookeeper hadoop@ hadoop03: /home/hadoop/zookeeper 


e )) 提示 : 修改 hadoop02,hadoop03 对 应 zookeeper/tmp/myid A Æ: 


hadoop02: 
echo 2> /home/hadoop/zookeeper/tmp/myid 
hadoop02: 
echo 3» /home/hadoop/zookeeper/tmp/myid 


3ae € Hdp eet 


1. 解压 Hadoop 220 


hadoop@ hadoop01:~Star - zxvf hadoop- 2.2.0.tar.gz 
hadoop@ hadoop01:~$mv hadoop- 2.2.0 hadoop 


2 修改 /etclprofile 
添加 以 下 内 容 , 这 一 步 需 在 所 有 节点 上 都 做 。 


export HADOOP HOME- /home/hadoop/hadoop 
export PATH= $PATH:SHADOOP HOME/sbin:S$HADOOP HOME/bin 


3. 修改 hadoo-env.sh 
配置 文件 在 $ HADOOP_HOME/etc/hadoop 目录 下 。 


hadoope hadoop01:~$cd hadoop/etc/hadoop 
hadoop@ hadoop01:~/hadoop/etc/hadoop$nano hadoop- env.sh 
export JAVA HOME- /usr/lib/jdk 


4 修改 core-sitexml 


«configuration» 

« 1- - JR 5E hdfs 的 nameservice 为 nsl --> 
«property» 

<name> fs .defaultFS« /name> 

«value» hdfs: //ns1« /value> 

</property> 

< !-—48 32 hadoop 临时 目录 --> 
<property> 

<name> hadoop.tmp.dir« /name> 

<value> /home/hadoop/hadoop/tmp< /value> 
</property> 

< - - HÉGE zookeeper 地址 --> 

«property» 

< name» ha. zookeeper.quorum« /name> 

« value» hadoop01:2181, hadoop02:2181, hadoop03:2181< /value> 
</property> 

</configuration> 


Æ tmp 文件 夹 : hadoop@hadoop01:~/hadoop$ mkdir tmp. 


1165 


O CREH xo Ados 


5. 修改 hdfs sitexml 


«configuration» 

< !- 一 指定 hdfs 的 nameservice 为 nsl, 需 要 和 core- site.xml 中 的 保持 一 致 --> 
«property» 

« name» dfs .nameservices« /name> 

«value» ns1« /value> 

« /property» 

<!--nsl 下 面 有 两 个 NameNode, 分 别 是 nnl,nn2 - -» 
<property> 

<name> dfs.ha.namenodes.nsl< /name> 
<value>nnl,nn2< /value> 

</property> 

<!--nnl 的 RPC 通 信 地 址 --> 

«property» 

<name> dfs .namenode . rpc- address .ns1 .nn1« /name> 
« value» hadoop01 : 9000« /value> 

</property> 

«1- - nnl ff] http 通 信 地 址 --> 

«property» 

<name> dfs .namenode . http- address .ns1.nnl« /name> 
< value» hadoop01 : 50070« /value> 


< /property» 
« 1- - nn2 ff] REC 通信 地 址 --> 
«property» 


<name> dfs .namenode . rpc- address .ns1.nn2« /name> 

« value» hadoop02 : 9000€ /value> 

</property> 

« 1- - nn2 ff http 通 信 地 址 --> 

«property» 

<name> dfs .namenode .http- address.ns1.nn2< /name> 

< value» hadoop02 :50070« /value> 

< /property» 

< 上 -指定 NameNode 的 元 数据 在 JournalNode 上 的 存放 位 置 --> 
«property» 

<name> dfs .namenode. shared.edits.dir« /name> 

«value» qjournal://hadoop01 :8485; hadoop02 : 8485; hadoop03:8485/ns1« /value> 
</property> 

< !-- 指 定 JournalNode 在 本 地 磁盘 存放 数据 的 位 置 --> 
<property> 

<name> dfs. journalnode.edits.dir« /name> 

<value> /home/hadoop/hadoop/journal< /value> 

< /property> 

< 上 -开启 NameNode 失败 自动 切换 --> 

<property> 

<name> dfs.ha.automatic- failover.enabled< /name> 
<value> true< /value> 

< /property> 

<!-- 配 置 失 败 自 动 切 换 实现 方式 --> 

<property> 

«name» dfs.client.failover.proxy.provider.nsl« /name> 
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«value» org.apache .hadoop.hdfs.server.namenode.ha. 
ConfiguredFailoverProxyProvider« /value> 

« /property» 

<!-- 配 置 隔离 机 制 --> 

«property» 

<name> dfs.ha.fencing.methods« /name> 

«value» sshfence< /value> 

</property> 

<!-- 使 用 隔离 机 制 时 需要 ssh 免 登录 --> 
<property> 

<name> dfs.ha.fencing.ssh.private- key- files< /name» 
« value» /home/hadoop/ .ssh/id rsa« /value» 
</property> 


</configuration> 


6. 修改 slaves 


hadoop01 
hadoop02 
hadoop03 


7. 配置 YARN 
修改 yarn-site. xml 


« configuration» 
<!-- 指 定 resourcemanager 地 址 --> 
«property» 
<name> yarn.resourcemanager.hostname« /name> 
« value» hadoop0l« /value> 
« /property» 
< 1- - RE. nodemanager 启动 时 加 载 server 的 方式 为 shuffle server --» 
«property» 
<name> yarn.nodemanager.aux- services< /name> 
«value»mapreduce shuffle« /value> 
< /property» 
< /configuration» 


8. 修改 mapred-sitexml 
«configuration» 
«1- - HE mr 框架 为 yarn 方 式 --> 
«property» 
< name» mapreduce.framework.name« /name> 
«value» yarn« /value> 
< /property» 
</configuration> 


9 复制 hadoop 文件 夹 


10. 启动 Zookeeper 
分 别 在 hadoop01,hadoop02,hadoop03 上 启动 Zookeeper. 


(0 CE Hab ktm 


hadoop@ hadoop02:~$ed zookeeper/bin 
hadoop@ hadoop02 :~/zookeeper/bin$./zkServer.sh start 


查看 状态 : 

hadoop@ hadoop03: ^ /zookeeper/bin$./zkServer.sh status 

在 每 个 节点 上 执行 一 次 以 上 命令 ,会 发 现 有 一 个 是 leader, 两 个 是 follower, 
1L 启动 JoumalNode 

TE hadoop01 上 启动 所 有 JournalNode, 


hadoop@ hadoop01:~/zookeeper/bin$ed /home/hadoop/hadoop/sbin 
hadoop@ hadoop01 :~/hadoop/sbinShadoop- daemons.sh start journalnode 


运行 jps 命令 检验 ,多 了 JournalNode 进程 : 


hadoop@ hadoop01:~/hadoop/sbin$jps 
1953 QuorumPeerMain 

2071 JournalNode 

2115 Jps 


12. 格式 化 NameNode 

hadoop@ hadoop01 : /hadoop/sbin$hadoop namenode - format 

格式 化 后 会 在 根据 core-site. xml 中 的 hadoop. tmp. dir 配置 生成 一 个 文件 夹 dfs, 复 制 
tmp XH: 


hadoop@ hadoop01:~/hadoop$ed tmp 
hadoop@ hadoop01 :~/hadoop/tmp$sep - r dfs/ hadoop@ hadoop02: /home/hadoop/hadoop/tmp 


13. 格式 化 Zookeeper 


hadoop@ hadoop01 : /hadoop/sbin$hdfs zkfc - formatZK 


14. 启动 HDFS 
在 hadoop01 上 启动 HDFS, 


hadoop@ hadoop01:~/hadoop/sbin$start- dfs.sh 


15. 启动 YARN 
在 hadoop01 上 启动 YARN. 


hadoope hadoop01 :~/hadoop/sbin$start- yarn.sh 
可 以 统计 浏览 器 访问 : 


http://192.168.1.10:50070 
NameNode 'hadoop01:9000' (active) 


16 验证 HDFS HA 
首先 向 HDFS 上 传 一 个 文件 。 


hadoop@ hadoop01:~/hadoop/sbinShadoop fs - put/etc/profile /profile 


hadoop@ hadoop01 : » /hadoop/sbin$hadoop fs - 1s/ 
然后 再 kill f active 的 NameNode。 
kill -9 


说 明 : 这 里 的 9, 是 NameNode 的 pid, 用 jps 可 以 看 到 。 
通过 浏览 器 访问 : http://192. 168. 1. 20:50070。 


NameNode 'hadoop02:9000' (active) 
这 时 hadoop02 上 的 NameNode 变 成 了 active. 
在 执行 命令 : 


hadoop fs -1s / 
-rw-r--r--  3root supergroup 1926 2014- 02- 06 15:36 /profile 


刚才 上 传 的 文件 依然 存在 ! 
手动 启动 那个 挂 起 的 NameNode: 


sbin/hadoop- daemon.sh start namenode 
通过 浏览 器 访问 : http: //192. 168. 1. 10:50070, 
NameNode 'hadoop01:9000' (standby) 


发 现 刚才 处 于 active, AIG PK AR" NY hadoop01 ,现在 已 经 处 于 standby 状态 了 。 验 


证 YARN 如 下 。 


运行 hadoop 提供 的 demo 中 的 WordCount 程序 : 


hadoop@ hadoop01:~/hadoop$hadoop jar share/hadoop/mapreduce/hadoop- mapreduce- examples- 2.2.0. 


jar wordcount /profile /out 
查看 执行 结果 : 


hadoop@ hadoop01:~/hadoop$hadoop fs - 1s /out 

Found 2 items 

-rw-r--r-- 3 hadoop supergroup 0 2014- 06- 09 18:43 /out/ SUCCESS 
-rw-r--r-- 3 hadoop supergroup 787 2014- 06- 09 18:43 /out/part- r- 00000 
hadoop@ hadoop01 : -/hadoopShadoop fs -cat /out/part- r- 00000 

I= 1 


"SBASH" 2 
+ 6 
then 6 
umask 1 
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17. 启动 停止 服务 
1) 启动 Zookeeper( 所 有 节点 ) 


hadoop@ hadoop02 :~$/home/hadoop/zookeeper/bin/zkServer.sh start 


若 不 启动 ,hadoop01 将 会 是 standby RÆ. 
2) 启动 DFS 


hadoop@ hadoop01 : -$start- dfs.sh 
3) 启动 YARN 

start- yarn.sh 

4) 停止 YARN 

hadoop@ hadoop01:~$stop- yarn.sh 
5) 停止 DFS 

hadoop@ hadoop01:~$stop- dfs.sh 
6) 停止 Zookeeper 


hadoop@ hadoop01 :~$ /home/hadoop/zookeeper/bin/zkServer.sh stop 


d 
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e HDFS 文件 系统 


随 着 互联 网 应 用 的 发 展 ,对 数据 存储 提出 了 许多 新 的 要 求 , 面 对 这 些 新 的 要 求 ,传统 的 
文件 系统 已 经 不 能 很 好 地 应 对 了 ,需要 有 新 的 技术 来 满足 这 些 要 求 。Hadoop 的 HDFS 系 
统 正 是 在 这 种 背景 下 产生 的 。 本 章 将 对 HDFS 进行 详细 介绍 。 


4.1 互联 网 时 代 对 存储 系统 的 新 要 求 


自 20 世纪 90 年 代 互联 网 产生 以 来 ,互联 网 应 用 迅猛 发 展 ,产生 了 许多 前 所 未 有 的 应 
用 ,如 : 搜索 引擎 .电子 商务 、 网 络 社交 等 。 这 些 新 的 应 用 产生 了 海量 的 数据 。2008 年 的 
Google 公司 ,当时 它 就 已 经 拥有 超过 200 个 GFS(Google 文件 系统 ) 集 群 在 运行 ,每 个 集群 
有 1000 一 5 000 台 机 器 ,每 个 GFS 存储 高 达 SPB 的 数据 ,成 千 上 万 的 机 器 需要 的 数据 都 从 
GFS 集群 中 检索 ,这 些 集群 中 数据 读 写 的 吞吐 量 可 高 达 40GB 每 秒 , 每 天 大 约 要 处 理 的 数据 
量 超过 20PB。 在 应 用 程序 方面 ,Google 已 经 拥有 6 000 个 MapReduce 应 用 程序 在 运行 ,并 
且 以 每 月 编写 数 百 个 新 应 用 程序 的 速度 在 增长 。 如 此 巨 量 的 数据 以 及 快速 的 增长 速度 ,对 
存储 系统 提出 了 新 的 要 求 。 此 外 ,目前 百度 搜索 引擎 的 数据 量 也 大 于 200PB, 雅 虎 和 脸谱 的 
数据 量 在 100PB 以 上 , 电 商 淘宝 的 数据 量 在 15PB 以 上 ,eBay 数据 量 在 10PB 以 上 。 这 些 数 
据说 明了 一 个 问题 , 随 着 互联 网 应 用 的 普及 与 发 展 , 数 据 量 在 飞速 地 增长 ,要 求 存储 系统 必 
须 能 够 满足 这 种 飞速 的 发 展 , 能 够 存储 海量 的 数据 。 除 了 容量 的 要 求 以 外 ,还 要 满足 以 下 几 
个 要 求 。 

1. 存储 系统 要 廉价 且 稳定 

虽然 现在 的 存储 技术 在 不 断 地 发 展 , 先 后 出 现 了 磁盘 阵列 存储 的 直 连 式 存 储 技术 
(DAS) .网 络 接 入 存储 技术 (NAS) ,存储 区 域 网 络 技术 (SAN) 等 。 但 是 随 着 海量 数据 的 产 
生 , 这 些 技术 的 存储 成 本 也 在 不 断 地 增加 。 作 为 商业 应 用 ,成 本 是 第 一 个 要 考虑 的 因素 。 能 
和 否 发 明 一 种 廉价 的 存储 技术 ,使 单位 数据 的 存储 成 本 降下 来 ,同时 ,要 求 这 种 技术 还 要 非常 
稳定 ,不 能 因为 硬件 或 软件 的 故障 而 影响 数据 的 使 用 。 


2 满足 大 并 发 量 的 访问 请 求 

首先 ,看 一 下 2012 年 11 月 11 日 购物 狂欢 节 这 一 天 ,各 电 商 访问 量 及 变化 率 。 

通过 表 4-1 可 以 看 到 “ 双 11” 这 一 天 ,淘宝 和 天 猫 的 日 访问 量 都 在 6 000 万 次 以 上 ,其 他 
电 商 的 访问 量 也 是 非常 巨大 的 。 如 此 高 的 访问 量 也 带 来 了 非常 高 的 并 发 访问 量 , 在 如 此 严 
峻 的 运行 环境 下 ,如 何 进 行 顺 畅 的 文件 访问 及 管理 成 为 一 个 技术 难题 。 


(0 Gi 
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表 4-1 “ 双 11” 购 物 狂欢 节日 访问 量 表 


2012-11-11 访问 量 


2012-10-11 访问 量 


变化 率 /% 


淘宝 网 


65 921 331 


34 629 999 


90 


天 猫 商城 


60 633 770 


9 032 382 


571 


京东 商城 


19 408 285 


8 687 256 


123 


苏宁 易 购 


6 989 279 


1,388 563 


403 


易 讯 


3 988 016 


1486 228 


168 


库 巴 网 


784 211 


294 489 


166 


3. 支持 超大 的 文件 

现在 很 多 面向 互联 网 的 应 用 系统 都 在 记录 着 各 种 各 样 的 数据 ,如 : 电 商 网 站 需要 记录 
用 户 的 浏览 购物 行为 ; Web 网 站 记录 用 户 访问 日 志 ; 搜 索引 擎 记录 用 户 的 搜索 记录 ;业务 系 
统 记录 本 公司 的 业务 数据 等 ,数据 被 持续 追加 到 文件 中 ,最 终 形成 一 个 个 超大 的 文件 ,一般 
都 在 TB 级 甚至 更 大 ,如 此 巨大 的 文件 ,一 般 的 文件 系统 是 不 可 能 进行 很 好 存储 的 。 


4 文件 系统 要 有 超大 的 吞吐 量 

正如 表 4-1 所 示 ,一 个 电 商 系统 的 日 访问 量 非常 巨大 ,达到 千 万 人 次 ,每 个 顾客 在 网 站 
浏览 时 间 从 几 分 钟 到 几 十 分 钟 , 甚 至 几 个 小 时 。 在 此 期 间 系统 要 不 断 地 记录 各 种 数据 ,如 果 
系统 的 吞吐 量 比较 小 ,不 能 快速 处 理 业 务 数据 ,这 对 电 商 系统 来 说 是 致命 的 ,在 现实 世界 中 
不 乏 因为 系统 的 吞吐 量 较 小 ,系统 运行 缓慢 ,最 终 导致 业务 系统 失败 的 案例 。 


4.2 HDFS 系统 的 特点 


Hadoop 借鉴 了 Google 公司 的 GFS 系统 的 技术 ,实现 了 HDFS( Hadoop Distributed 
File System) K€ ,并 开放 源 代 码 ,使 人 们 有 幸 领 略 到 了 大 数据 处 理 的 风采 , 它 是 否 能 满足 互 
联网 时 代 的 业务 需求 呢 ? 以 下 来 看 它 的 表现 。 


1 廉价 且 稳定 的 存储 解决 方案 

为 了 降低 系统 的 建设 和 运 维 成 本 ,Hadoop 并 不 是 运行 在 昂贵 且 高 可 靠 的 硬件 上 ,而 是 
和 运行 在 由 普通 的 商用 硬件 (在 零售 店 能 够 买 到 的 硬件 ) 组 成 的 庞大 集群 上 ,对 庞大 的 廉价 集 
群 来 说 ,硬件 损坏 是 常态 ,怎样 来 保证 系统 的 稳定 性 呢 ? Hadoop 采用 了 数据 块 多 副本 机 
制 ,Hadoop 默认 把 数据 分 成 64MB 的 数据 块 ,并 制作 3 个 备份 ,一 份 放 在 一 个 机 架 内 的 本 
地 节点 上 , 另 一 份 放 在 同一 机 架 内 的 另 一 节点 上 ,第 三 份 放 在 另 一 机 架 的 节点 上 ,三 个 数据 
块 同时 坏 掉 的 可 能 性 是 微乎其微 的 。 当 数据 块 的 副本 数 低 于 3 时 ,系统 的 错误 检测 与 自动 
恢复 技术 就 会 自动 把 数据 块 的 副本 数 恢复 到 正常 水 平 。 这 样 保证 了 数据 的 安全 与 系统 的 
稳定 。 


2 高 吞吐 量 的 文件 系统 

HDFS 文件 系统 上 ,对 文件 采取 流 式 读 取 批 量 处 理 的 方式 ,而 不 是 交互 式 的 读 写 方式 。 
Hadoop 应 用 对 文件 实行 一 次 写 入 、 多 次 读 取 的 访问 方式 ,文件 一 经 创建 就 不 再 进行 修改 ， 
这 样 极 大 地 提高 了 系统 的 吞吐 量 。 
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3 超大 文件 的 支持 

HDFS 采用 数据 块 来 存储 数据 ,HDFS 中 的 文件 被 划分 为 块 大 小 的 多 个 分 块 Cchunk)， 
作为 独立 的 存储 单元 。 这 样 一 来 ,文件 的 大 小 可 以 大 于 网 络 中 任意 一 个 磁盘 的 容量 ,文件 的 
所 有 块 并 不 需要 存储 在 同一 个 磁盘 上 ,因此 他 们 可 以 利用 集群 上 的 任意 一 个 磁盘 进行 存储 。 
使 用 块 抽象 而 非 整 个 文件 作为 存储 单元 ,大 大 简化 了 存储 子 系统 的 设计 ,这 对 故障 种 类 繁多 
的 分 布 式 系统 来 说 尤为 重要 。 

在 Hadoop 中 最 常见 的 超大 文件 就 是 日 志文 件 ,一 个 大 型 的 应 用 系统 日 志 通 常会 上 百 
GB, 甚 至 达到 TB。 正 是 因为 系统 中 的 文件 特别 巨大 ,移动 起 来 特别 费时 费力 ,因此 ,在 
Hadoop 中 采用 了 移动 计算 ,而 不 是 移动 数据 。 也 就 是 说 把 计算 移动 到 数据 旁边 比 把 数据 
移动 到 计算 旁边 更 经 济 高 效 。 

4 简单 一 致 性 的 文件 系统 

Hadoop 的 HDFS 文件 系统 采用 的 是 一 次 写 和 多 次 读 取 的 模式 ,文件 内 容 一 经 写 人 就 
不 再 更 改 , 这 样 把 数据 的 一 致 性 问题 轻而易举 地 简单 化 了 。 


5. 流 式 的 数据 访问 方式 

Hadoop 中 数据 以 流 式 读 取 为 主 , 而 不 是 交互 地 随机 读 取 ,这 种 一 次 写 人 多 次 流 式 读 取 
的 方式 极 大 地 提高 了 文件 系统 的 吞吐 量 。 

正 是 因为 以 上 所 述 的 特点 ,Hadoop 得 到 了 广泛 的 应 用 ,但 它 也 有 应 用 上 的 短 板 , 主 要 
表现 为 在 以 下 几 种 场景 不 适合 使 用 HDFS。 

1) 低 时 间 延 迟 的 数据 访问 

要 求 低 时 延 数据 访问 的 应 用 ,例如 几 十 毫秒 范围 ,不 适合 在 HDFS 上 运行 。HDFS 是 
为 高 数据 吞吐 量 优化 的 ,这 可 能 会 以 高 时 间 延 迟 为 代价 。 

2) 大 量 的 小 文件 

由 于 NameNode 把 整个 文件 系统 的 元 数据 存储 在 内 存 中 ,因此 该 文件 系统 所 能 存储 的 
文件 总 数 受 限于 NameNode 的 内 存 容 量 。 根 据 经 验 ,每 个 文件 .目录 和 数据 块 的 存储 信息 
大 约 占 150 字 节 。 因 此 举例 来 说 ,如 果 有 100 万 个 文件 , 且 每 个 文件 占 一 个 数据 块 ,至 少 需 
要 300M 内 存 。 存 储 数 十 亿 个 文件 就 会 超出 当前 硬件 的 处 理 能 力 。 

3) 多 用 户 写 入 ,任意 修改 文件 

HDFS 中 的 文件 可 能 只 有 一 个 writer, 而 且 写 操作 总 是 将 数据 添加 到 文件 的 末尾 。 它 
不 支持 具有 多 个 写 人 者 的 操作 ,也 不 支持 在 文件 的 任意 位 置 进行 修改 。 


4.3 HDFS 文件 系统 
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HDFS 分 布 式 文件 系统 是 一 个 主 / 从 (Master/Slave) 架构 的 系统 , 它 主 要 由 
NameNode、DataNode、SecondaryNameNode、 事 务 日 志 、 映 像 文件 等 构成 。 系 统 内 有 一 个 
NameNode 节点 、SecondaryNameNode 节点 和 一 些 DataNodeNameNode 节点 ,其 中 
NameNode 为 主 节点 、DataNode 为 从 节点 , 主 从 节点 都 以 Java 程序 的 形式 运行 在 普通 商用 
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计算 机 上 ,操作 系统 为 Linux, 系 统 架 构 如 图 4-1 Bras. SecondaryNameNode 是 NameNode 
的 备份 ,客户 端 联系 NameNode 后 ,取得 文件 的 元 数据 ,而 真正 的 文件 读 写 发 生 在 客户 端 与 
DataNode 之 间 。 
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图 4-1 HDFS 结构 示意 图 


1. NameNode 

NameNode 是 HDFS 系统 中 的 管理 节点 , 它 管理 文件 系统 的 命名 空间 、 记 录 每 个 文件 
数据 块 在 DataNode 上 的 位 置 和 副本 信息 、 协 调 客 户 端 对 文件 的 访问 、 记 录 命 名 空间 内 的 改 
动 和 空间 本 身 属性 的 改动 。 

NameNode 使 用 事务 日 志 (EditsLog) 记 录 HDFS 元 数据 的 变化 。 使 用 映像 文件 存储 
文件 系统 的 命名 空间 ,包括 文件 映射 ,文件 属性 等 。 

2. DataNode 

DataNode 节点 是 HDFS 系统 中 保存 数据 的 节点 ,负责 所 在 物理 节点 的 存储 管理 ,一 次 
写 入 ,多 次 读 取 。 文 件 由 数据 块 组 成 ,默认 的 块 大 小 是 64MB, 数 据 块 以 元 余 备 份 的 形式 分 
布 在 不 同 机 架 的 不 同 机 器 上 ,DataNode 定期 向 NameNode 提供 其 保存 的 数据 块 的 列表 ,以 
便于 客户 端 在 获取 文件 元 数据 后 直接 在 DataNode 上 进行 读 写 。 


3, SecondaryNameNode 

TE Hadoop 中 只 有 一 个 NameNode, 所 以 存在 单 点 问题 , 即 当 NameNode 节点 宕 机 时 ,整个 
系统 就 瘫痪 了 。 为 了 解决 这 个 问题 ,在 Hadoop 中 增加 了 一 个 SecondaryNameNode 节点 , 它 一 
般 运 行 在 单独 的 计算 机 上 ,定期 从 NameNode 节点 获取 数据 ,形成 NameNode 的 备份 ,一 旦 
NameNode 出 现 问 题 ,SecondaryNameNode 便 可 以 顶替 NameNode。Hadoop 1. X 中 没有 
真正 解决 单 点 问题 ,到 2. X 后 解决 了 系统 的 单 点 问题 ,提高 了 系统 的 可 用 性 ,请 参照 4. 6 节 
内 容 。 


4 客户 端 
客户 端 是 Hadoop 集群 的 使 用 者 ,他 通过 HDFS 的 Shell 和 API 对 系统 中 的 文件 进行 
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操作 。 


5 机 架 

机 架 (Rack) 是 容纳 组 成 集群 的 普通 商用 计算 机 (节点 ) 的 架子 ,各 节点 被 分 到 不 同 的 机 
架 内 ,这 样 做 是 为 了 管理 和 施工 的 需要 ,也 是 为 了 防 灾 容 错 的 需要 ,一 个 机 架 内 的 机 器 因为 
灾难 、 掉 电 , 故 障 等 原因 一 起 宕 机 的 可 能 性 比较 大 ,把 机 器 分 配 到 不 同 机 架 后 ,所 有 机 器 一 起 
宕 机 的 可 能 性 则 比较 小 ,这 也 是 HDFS 文件 系统 安全 的 原因 。 一 般 来 说 ,一 个 机 架 内 的 节 
点 间 数 据 传输 速率 要 快 ,而 不 同 机 架 内 的 节点 间 数 据 传输 速率 要 慢 一 些 。 


6 数据 块 

在 操作 系统 中 有 数据 块 的 概念 ,比如 磁盘 中 有 扇 区 , 它 的 大 小 为 512 字 节 ,这 是 进行 数 
据 读 写 的 最 小 单位 ,操作 系统 中 的 数据 块 是 磁盘 扇 区 块 的 整数 倍 。 在 HDFS 中 也 有 数据 块 
的 概念 ,不 过 要 大 得 多 ,默认 是 64MB, 与 磁盘 数据 块 类 似 ,数据 块 (Chunk) 是 Hadoop 处 理 
数据 的 最 小 单位 ,一 个 Hadoop 文件 被 分 成 若干 数据 块 ,根据 Hadoop 数据 管理 的 策略 , 数 
据 块 被 放置 在 不 同 的 数据 节点 (DataNode) 中 , 当 数 据 块 的 副本 数 小 于 规定 的 份 数 时 ， 
Hadoop 系统 的 错误 检测 与 自动 恢复 技术 就 会 自动 把 数据 块 的 副本 数 恢 复 到 正常 水 平 。 


ee ”HEFS 文 件数 据 的 存储 组 织 


HDFS 是 一 个 分 布 式 文件 系统 , 它 当 然 拥 有 读 、 写 、 改 、 复 制 . 删 除 等 基础 的 文件 访问 方 
式 , 并 且 这 些 访问 对 用 户 是 透明 的 ,用 户 可 以 通过 Shell 和 API 两 种 方式 来 访问 数据 。 
HDFS 是 构建 在 Linux 之 上 的 一 个 分 布 式 文件 系统 ,从 Linux 角度 来 看 HDFS 文件 数据 是 
怎样 存储 的 呢 ? 下 面 就 来 看 一 看 HDFS 文件 数据 的 存储 组 织 形 式 。 


1. NameNode 目录 结构 
NameNode 使 用 Linux 操作 系统 的 文件 系统 来 存储 数据 ,保存 数据 的 文件 夹 位 置 由 
{dfs. name. dir} 来 决定 ,如 果 配 置 文件 中 未 设置 该 项 , 则 文件 夹 放 在 Hadoop 安装 目录 下 
的 /tmp/dfs/name, 下 面 来 看 一 下 NameNode 的 目录 结构 。 
hadoop@master:~/hadoop/tmp/dfs/name$ tree -L 2 


L—— current 

| H| edits 

| L— fsimage 
| 
| 


L— fstime 


L—— VERSION 
上 一 image 
| L—— fsimage 
L—— in use.lock 


L——— previous.checkpoint 
I—— edits 
| fsimage 
fstime 
I VERSION 
€) 提示 : tree 命令 ,默认 情况 下 可 能 没有 安装 , 需 另 外 安装 。 


连接 互联 网 情况 下 ,安装 命令 为 : 


(00 CE Hadoop Ate iss 
To 
Baud sudo apt-get update 
sudo apt-get install tree 
tree 命令 常见 的 用 法 : 
tree -a 显示 所 有 。 
tree -d 仅 显 示 目 录 。 
tree -L n n 代表 数字 ,表示 要 显示 几 层 ,本 例 中 ,表示 显示 2 层 。 
tree -f 显示 完整 路 径 。 
tree -L 4>dirce. txt 即 可 生成 UTF8 格式 的 文档 ,查看 文档 时 , 需 选 择 UTF8 HBG 
则 文件 显示 为 乱码 。 
(D current Ak: 该 目录 下 保存 了 4 个 文件 。 
(D edits:EditLog 编辑 日 志 。 
@ fsimage: 整个 系统 的 空间 镜像 文件 。 
O fstime: 上 一 次 检查 点 的 时 间 。 
(D VERSION: 保存 了 当前 运行 的 HDFS 版 本 信息 。 
(2) image 目录 : fsimage 文件 的 保存 位 置 。 
(3) previous. checkpoint AR: 该 目录 保存 的 内 容 与 current 目录 一 样 ,只 是 这 里 保存 
的 是 上 一 次 检查 点 的 内 容 。 
(4) in use. lock 文件 : NameNode 锁 , 只 在 NameNode 启动 并 能 和 DataNode 正常 交 
互 时 存在 ,否则 该 文件 不 存在 。 该 文件 具有 “ 锁 ” 的 功能 ,可 以 防止 多 个 NameNode 共享 同 
一 目录 。 一 般 来 说 ,一 个 机 器 上 只 有 一 个 NameNode, 这 时 ,这 个 文件 存在 的 价值 就 不 大 了 。 


2. DataNode 目录 结构 
DataNode 使 用 Linux 操作 系统 的 文件 系统 来 存储 数据 ,保存 数据 的 文件 夹 位 置 由 
{dfs. data, dir} 来 决定 ,如 果 配 置 文件 中 未 设置 该 项 , 则 文件 夹 放 在 Hadoop 安装 目录 下 的 
/tmp/dfs/data, 其 具体 结构 如 下 。 
hadoop@master:~/hadoop/tmp/dfs/data$ tree -L 2 


上 一 一 blocksBeingWritten 

H— current 

| H blk_1140165932077243741 

| H blk_1140165932077243741_1451.meta 
| H blk_1246585558857976182 

| H blk_1246585558857976182_1449.meta 
| H dnep block verification.log.curr 

| |I—— dnep block verification.log.prev 

| FY & subdiro 

| H subdirl 

| | L—— VERSION 

|I—— detach 

[+— in use.lock 

|I—— storage 


Leni tmp 


(1) current 目录 : 已 经 成 功 写 人 的 数据 块 , 以 及 一 些 系统 需要 的 文件 ,包括 以 下 文件 。 
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(D blk CX X X. blk_X XXX.meta: 分 别 表示 数据 块 和 数据 块 对 应 的 元 数据 。 

@ subdirX X: 当 同 一 目录 下 文件 数 超过 一 定 限制 (比如 64) 时 ,会 新 建 一 个 subdir A 
录 , 保 存 多 出 来 的 数据 块 和 元 数据 ;这 样 可 以 保证 同一 目录 下 目录 十 文件 数 不 会 太 多 ,可 以 
提高 搜索 效率 。 

© VERSION: 保存 了 当前 运行 的 HDFS 版 本 信息 。 

(2) tmp: 保存 的 是 用 户 操 作 引 发 的 写 入 操作 对 应 的 数据 块 。 

(3) blocksBeingWritten 目录 : 是 HDFS 系统 内 部 副本 创建 时 ( 当 出 现 副 本 错误 或 者 数 
据 不 够 等 情况 时 ) 引 发 的 数据 块 。 

(4) detach 目录 : 用 于 DataNode 升级 。 

(5) storage 文件 : 由 于 旧版 本 的 存储 目录 是 storage, 因 此 如 果 在 新 版 本 的 DataNode 
中 启动 旧版 本 的 HDFS ,会 因为 无 法 打开 storage 目录 而 启动 失败 ,这 样 可 以 防止 因 版 本 不 
同 带 来 的 风险 。 

(6) in use. lock X fF; DataNode 锁 ,只 有 在 DataNode 启动 并 能 和 NameNode 正常 交 
互 时 该 文件 才 存 在 ,否则 该 文件 不 存在 。 这 一 文件 具有 “ 锁 ” 的 功能 ,可 以 防止 多 个 
DataNode 共享 同一 目录 。 一 般 来 说 ,一 个 机 器 上 只 有 一 个 DataNode, 这 时 ,这 个 文件 存在 
的 价值 就 不 大 了 。 


3. CheckPointNode 目录 结构 

CheckPointNode 使 用 Linux 操作 系统 的 文件 系统 来 存储 数据 ,保存 数据 的 文件 夹 位 置 
HH (dfs. checkpoint. dir} 来 决定 ,如 果 配 置 文件 中 未 设置 该 项 , 则 文件 夹 放 在 Hadoop 安装 目 
录 下 的 /tmp/dfs/namesecondary 目录 。CheckPointNode 目录 下 的 文件 与 NameNode 目录 
下 的 同名 文件 作用 基本 一 致 ,不 同 之 处 在 于 CheckPointNode 保存 的 是 自 上 一 个 检查 点 之 
后 的 临时 镜像 和 日 志 。 
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Hadoop 是 典型 的 主 /从 架构 ,集群 中 有 一 个 NameNode 和 多 个 DataNode, 数 据 以 数据 
块 的 形式 保存 在 DataNode 中 ,在 NameNode 中 则 管理 着 文件 系统 的 命名 空间 。 命 名 空间 
与 现在 许多 文件 系统 相 类 似 是 一 个 树 状 结构 ,用 户 可 以 创建 ,修改 、 删 除 、 复 制 、 重 命名 一 个 
目录 或 文件 。NameNode 也 保存 着 每 个 数据 块 的 所 在 节点 的 信息 。 这 些 文件 块 的 映射 和 文 
件 系统 的 配置 信息 都 保存 在 一 个 叫 fsimage 的 映像 文件 中 ,事务 日 志文 件 (EditsLog) 则 记 
录 着 对 文件 系统 的 元 数据 的 改变 。 如 : 在 HDFS 中 创建 了 一 个 新 的 文件 , 则 在 EditsLog 事 
务 日 志文 件 中 插入 一 条 记录 标示 这 个 改变 。NameNode 对 整个 Hadoop 集群 来 说 是 至 关 重 
要 的 , 它 的 损坏 将 导致 整个 集群 不 能 工作 ,因为 不 知道 如 何 根据 DataNode 节点 中 的 数据 块 
来 重 构 文 件 系统 。 因 此 ,Hadoop 采取 了 两 种 机 制 来 保护 NameNode 的 安全 。 

第 一 种 机 制 是 元 数据 的 持久 化 。 当 NameNode 启动 时 , 它 将 从 磁盘 中 读 取 fsimage 和 
EditsLog 文件 ,将 新 的 元 数据 刷新 到 本 地 磁盘 中 ,生成 一 个 新 的 fsimage 文件 ,至 此 ， 
EditsLog 文件 中 的 事务 日 志 已 经 被 处 理 并 持久 化 到 fsimage 中 ,这 个 过 程 叫 检查 点 , 它 发 生 
在 NameNode 启动 时 。 

第 二 种 机 制 是 在 系统 中 增加 了 一 个 辅助 的 NameNode, 也 就 是 上 文中 介绍 的 
SecondaryNameNode,SecondaryNameNode 会 周期 性 地 从 NameNode 处 获取 EditsLog 日 
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志文 件 , 并 把 日 志 合 并 到 fsimage 文件 中 ,然后 清空 EditsLog 文件 。NameNode 启动 时 就 会 
加 载 新 的 fsimage 文件 ,并 创建 一 个 EditsLog 文件 来 记录 对 HDFS 的 操作 。SecondaryNameNode 
工作 原理 如 图 4-2 所 示 。 


edits] fsimage ] 从 NameNode 取 回 
FsImage 和 EditsLog 


edits] fsimag£ ] 


edits.new 
Edits 换 为 Edits.new 合并 
fsimage.ckpt |* fsimage.ckpt 


Fsimage 换 为 Fsimage.ckpt 将 checkpoint 传 回 NameNode 


edits] fsimage J 


NameNode SecondaryNameNode 


4-2. SecondaryNameNode 工作 原理 


客户 端 (Client) 进 行 HDFS 文件 操作 (创建 ,修改 复制、 删除) 时 ,首先 会 把 这 个 操作 记 
录 在 日 志 (EditsLog) 中 。 在 日 志 中 记录 这 个 操作 后 ,NameNode 修改 内 存 中 的 文件 系统 的 
元 数据 信息 。 这 个 操作 成 功 之 后 ,日 志 都 会 被 同步 到 文件 系统 中 。fsimage 文件 (命名 空间 
映像 文件 ) 是 内 存 中 元 数据 在 硬盘 上 CheckPoint 的 结果 , 它 是 一 种 序列 化 的 格式 ,不 能 直接 
从 硬盘 上 打开 修改 。SecondaryDataNode 的 作用 就 是 帮助 NameNode 将 内 存 中 的 元 数据 
CheckPoint 到 硬盘 上 。 

CheckPoint 的 过 程 如 下 。 

(1) SecondaryNameNode 通知 NameNode 生成 新 的 日 志文 件 ,以 后 的 日 志 都 会 被 记录 
在 新 的 日 志文 件 中 。 

(2) SecondaryNameNode 用 HTTP Get 从 NameNode 节点 获得 fsimage 文件 及 旧 的 
日 志文 件 。 

(3) SecondaryNameNode 将 fsimage 映像 文件 加 载 到 内 存 中 ,并 执行 日 志文 件 中 的 所 
有 操作 ,然后 生成 新 的 fsimage 文件 。 

(4) SecondaryNameNode 节点 用 HTTP Post 方法 把 新 的 fsimage 文件 传 回 NameNode。 

(5) NameNode 这 时 就 可 以 使 用 新 的 fsimage 文件 和 新 的 日 志文 件 , 写 人 此 次 CheckPoint 
的 时 间 。 

这 样 ,NameNode 中 的 fsimage 文件 保存 了 最 新 的 CheckPoint 的 元 数据 信息 ,日 志文 件 
也 重新 开始 ,因为 周期 性 地 更 换 日 志文 件 , 所 以 日 志文 件 不 会 太 大 。 

SecondaryNameNode 周期 性 的 进行 这 种 合并 ,影响 这 种 周期 的 因素 有 两 个 。 

* editslog 文件 的 大 小 达到 某 一 阔 值 时 对 其 进行 合并 。 
* 到 了 某 一 时 间 周 期 时 进行 合并 。 

这 两 个 因素 的 配置 信息 是 在 core-site. xml 文件 中 设置 的 ,其 内 容 如 下 : 

<property> 


«name» fs.checkpoint .period< /name> // 时 间 周 期 
<value> 3600< /value> 
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« /property» 
«property» 
<name> fs.checkpoint .size« /name> // 日 志文 件 的 大 小 
«value» 67108864« /value> 
< /property» 
时 间 间 隔 默 认 一 小 时 合并 一 次 ,文件 大 小 默认 是 64MB。 
如 果 NameNode 损坏 ,这 时 就 需要 人 工 从 SecondaryNameNode 恢复 数据 ,会 或 多 或 少 
地 丢失 一 部 分 数据 ,因此 ,应 尽量 把 NameNode 与 SecondaryNameNode 分 开 , 放 在 不 同 的 
机 器 上 。 
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HDFS 能 够 存储 管理 超大 文件 是 因为 它 把 大 文件 存储 为 一 系列 数据 块 (Block) ,数据 块 
默认 大 小 为 64MB, 为 了 容错 ,数据 块 被 复制 多 份 分 布 到 集群 的 不 同 节点 上 ,这 些 数据 块 以 
Linux 文件 的 方式 保存 起 来 ,对 Linux 操作 系统 来 说 它 并 不 知道 HDFS 中 的 文件 , 当 
DataNode 启动 时 , 它 会 在 内 存 中 形成 一 个 数据 块 与 文件 的 对 应 关系 列表 ,DataNode 周期 性 
地 把 这 个 列表 发 送 给 NameNode, 这 就 是 人 们 所 说 的 心跳 机 制 ,NameNode 根据 心跳 信息 知 
道 集 群 中 哪个 DataNode 存活 着 ,哪个 DataNode 已 经 宕 掉 , 当 下 一 次 进行 文件 读 写 时 ,不 再 
给 宕 掉 的 DataNode 节点 分 配 任何 新 的 L/O 请 求 。 这 样 ,存储 在 宕 掉 的 节点 中 的 数据 块 因 
宕 机 而 变 得 不 可 用 , 某 些 数据 块 的 副本 数 因 此 而 下 降 到 指定 值 以 下 ,NameNode 会 不 断 进行 
错误 检测 ,检查 这 些 需要 复制 的 数据 块 ,在 需要 时 启动 自动 恢复 机 制 自动 地 把 数据 块 的 副本 
数 恢复 到 正常 水 平 。 

当然 ,集群 中 数据 块 复制 的 副本 数 及 数据 块 的 大 小 都 是 可 以 设置 的 ,可 以 在 文件 创建 时 
指定 ,也 可 以 在 以 后 指定 。HDFS 文件 系统 中 都 是 采用 一 次 写 入 多 次 读 取 的 机 制 ,并 且 限 制 
任何 时 间 只 有 一 个 用 户 可 以 进行 写 操作 。 

数据 块 副本 数 的 配置 是 在 hdfs-site. xml 中 设置 的 ,通过 这 种 方案 ,文件 只 在 被 写 入 时 
起 作用 ,虽然 改变 了 副本 数 的 设置 ,但 是 不 会 改变 以 前 写 入 文件 的 备份 数 。 


<property> 
<name> dfs.replication< /name> 
<value> 3< /value> 

< /property> 


另外 一 种 方法 是 通过 命令 改变 参数 : 
bin/Hadoop fs - serrep -R 2/ 


这 样 可 以 改变 整个 HDFS 里 面 的 备份 数 ,不 需要 重新 启动 ,而 上 一 方法 需要 重新 启动 
HDFS, 

下 面 来 看 一 下 数据 块 的 备份 原则 和 过 程 。 

数据 块 (Block) 是 HDFS 中 最 小 的 组 成 单元 ,一 个 大 文件 被 分 成 多 个 数据 块 后 ,同一 个 
文件 中 除了 最 后 一 个 数据 块 以 外 ,其 他 所 有 数据 块 都 是 一 样 大 小 。 数 据 块 用 一 个 Long 型 
整数 标识 ,每 个 数据 块 默认 被 复制 3 份 ,第 一 份 副 本 放 在 机 架 1 的 一 个 DataNode 节点 上 ， 
第 二 份 副 本 放 在 同一 个 机 架 ( 机 架 1) 的 另 一 个 DataNode 节点 上 ,第 三 份 副本 放 在 另外 一 个 
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机 架 ( 机 架 2) 的 一 个 DataNode 节点 上 。 在 访问 文件 时 会 优先 在 本 地 机 架 中 找到 该 文件 下 
的 数据 块 , 如 果 这 个 机 架 出 现 了 异常 , 则 可 以 到 另外 的 机 架 上 找到 这 个 数据 块 的 副本 ,这样 
保证 了 数据 的 安全 可 靠 。 数 据 块 的 分 布 情况 如 图 4-1 所 示 。 数 据 块 的 备份 规则 如 图 4-3 
所 示 。 


DataNodel | 一 Blockl DataNode4 
DataNode2 je DataNodeS 
| Block2 
DataNode3 DataNode6 
机 架 1 Block3 机 架 2 
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知道 了 备份 规则 ,那么 备份 的 过 程 又 是 怎么 样 的 呢 ? 

现在 假设 有 一 客户 要 往 集群 中 存 人 文件 ,他 首先 与 NameNode 进行 联系 , NameNode 
查询 命名 空间 ,这 个 文件 没有 重 名 并 具有 写 人 权限 ,NameNode 在 命名 空间 中 记录 创建 该 文 
件 的 对 应 记录 ,文件 被 分 为 若干 个 数据 块 。 客 户 端 从 NameNode 请 求 分 配 一 些 存储 数据 的 
数据 块 信息 以 及 适合 存放 这 些 数据 块 的 DataNode 地 址 。 对 每 个 数据 块 ,NameNode 会 分 
配 若干 个 DataNode 以 复制 存储 数据 块 ,例如 要 NONE 
将 数据 块 2 FFA 3 个 DataNode, 它们 分 别 是 
DataNodel , DataNode2 和 DataNode5 , 则 数据 块 
2 的 存储 过 程 ,如 图 4-4 所 示 。 

CD 客户 端 会 与 DataNodel 联系 ,将 Block? | pstanodet | 7| DataNode? | | DataNodes 
存 人 DataNodel, DataNodel 完成 数据 写 入 后 ， 
会 向 NameNode 报告 自己 完成 了 一 个 数据 块 的 Akid 
SA. 

(2) DataNodel 又 将 数据 块 传 给 DataNode2. DataNode2 完成 数据 写 入 后 , 向 
NameNode 发 送 一 份 报告 ,报告 完成 了 Block2 的 写 入 ,并 把 数据 传 给 DataNode5 。 

(3) DataNode5 将 Block2 保存 起 来 ,并 向 NameNode 报告 自己 完成 了 一 个 数据 块 的 写 
入 ,至 此 完成 所 有 数据 块 的 写 和 工作。 
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从 Hadoop 集群 中 读 取 数据 的 过 程 大 致 如 图 4-5 所 示 。 

(1) 客户 端 生成 一 个 HDFS 类 库 中 的 DistributedFileSystem 对 象 实例 ,并 使 用 此 实例 
的 open() 方 法 打开 一 个 文件 。 

(2) DistributedFileSystem 通过 RPC 向 NameNode 发 出 一 个 请 求 , 以 获得 文件 相关 的 
数据 块 位 置信 息 ,NameNode 将 包含 此 文件 相关 数据 块 所 在 的 DataNode 地 址 ,经 过 与 客户 
端 相 关 的 距离 进行 排序 后 ,返回 给 DistributedFileSystem 。 

(3) DistributedFileSystem 获得 这 些 信息 后 ,生成 一 个 FSDataInputStream 对 象 实例 返 
回 给 客户 端 ,此 实例 封装 了 一 个 DFSInputStream 对 象 ,负责 存储 数据 块 信息 和 DataNode 
地 址 信息 ,并 负责 后 续 的 文件 内 容 读 取 工 作 。 
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(4) 客户 端 向 FSDatalnputStream 发 出 读 取 数 据 的 read() 调 用 。 

(5) WH read() 调 用 请 求 后 ,FSDataInputStream 封装 的 DFSInputStream 选择 与 第 一 
个 数据 块 最 近 的 DataNode, 并 读 取 相应 的 数据 信息 ,返回 给 客户 端 ,在 数据 块 读 取 完 成 后 ， 
DFSInputStream 负责 关闭 到 相应 DataNode 的 链接 。 

(6) DFSInputStream 将 继续 选择 后 续 数 据 块 的 最 近 DataNode 节点 ,并 读 取 数 据 返回 
给 客户 端 ,直到 最 后 一 个 数据 块 读 取 完 毕 。 

(7) 客户 端 读 取 完 所 有 数据 块 后 ,调用 FSDatalnputStream 的 close() 接 口 关闭 这 个 文件 。 

在 DFSInputStream 从 DataNode 读 取 数据 的 过 程 中 ,难免 会 遇 到 某 个 DataNode 宕 机 
的 情况 ,DFSInputStream 会 选择 下 一 个 包含 此 数据 最 近 的 DataNode。 以 后 的 读 取 也 不 会 
再 连接 这 个 宕 机 的 DataNode。 

通过 介绍 文件 读 取 过 程 ,可 以 看 出 对 命名 空间 的 管理 主要 集中 在 NameNode 上 , 它 的 
1/0 任务 较 轻 , 但 任务 较 集中 ,全 集群 只 有 一 个 NameNode, 存 在 单 点 问题 。 相 对 1/O 任务 
较 重 的 读 写 操作 则 分 散在 各 个 DataNode 上 ,这 种 架构 比较 适合 于 大 数据 量 存储 ,并 且 具 有 
很 好 的 扩展 性 。 
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相对 于 数据 的 读 取 过 程 来 说 写 人 过 程 较为 复杂 ,过 程 如 图 4-6 所 示 。 

COD 使 用 HDFS 提供 的 客户 端 开发 库 中 的 DistributedFileSystem 对 象 的 creat() 方 法 
创建 一 个 文件 。 

(2) DistributedFileSystem 通过 RPC 向 NameNode 发 出 创建 文件 请 求 ,NameNode 会 
检查 该 文件 是 否 存在 及 用 户 是 否 有 权限 进行 操作 ,检查 成 功 后 则 在 命名 空间 中 创建 此 文件 
的 对 应 记录 ,否则 会 抛 出 IOException 异常 。 

(3) DistributedFileSystem 生成 一 个 FSDataOutputStream 对 象 实例 ,此 实例 封装 了 一 
个 DFSOutputStream 对 象 ,负责 后 续 文 件 的 写 和 操作。 

(4) 客户 端 向 FSDataInputStream 发 出 写 入 数据 的 write() 调 用 , 写 和 人 数据 。 
DFSOutputStream 在 收 到 数据 后 将 数据 拆 分 成 多 个 Block, 放 入 一 个 数据 队列 中 。 
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(5) DataStreamer 负责 从 数据 队列 中 不 断 取 出 数据 ,准备 写 人 DataNode 中 。 在 此 之 
前 ,DataStreamer 需要 从 NameNode 请 求 分 配 一 些 存放 数据 的 数据 块 信息 及 适合 存放 这 些 
数据 块 的 DataNode 地 址 。 

(6) 对 每 个 数据 块 ,NameNode 会 分 配 若 干 个 DataNode 以 复制 存储 数据 块 。 这 个 写 入 
过 程 是 以 管道 的 形式 将 数据 块 写 人 所 有 DataNode。 例 如 ,要 把 Block2 写 入 三 个 
DataNode,DataStreamer 会 将 Block2 写 人 第 一 个 DataNode, 该 DataNode 把 Block2 存储 
后 ,再 将 其 传递 给 下 一 个 DataNode, 直 到 最 后 一 个 DataNode。 

(7) 每 个 DataNode 存储 数据 后 ,会 向 DataStreamer 报告 已 经 完成 数据 存储 任务 ,同时 
向 NameNode 报告 自己 完成 了 一 个 数据 块 的 写 和 操作。 循环 执 行 步骤 (6) 与 步骤 (7) 直 至 
写 完 所 有 数据 块 。 

(8) 写 完 所 有 数据 块 后 ,客户 端 将 调用 FSDataInputStream 的 close() 方 法 结束 这 次 文 
件 写 入 操作 。 

数据 写 入 过 程 中 ,如 果 某 个 DataNode 出 现 故 障 ,DataStreamer 将 关闭 到 此 节点 的 链 
接 , 故 障 节点 将 从 DataNode 链 中 删除 ,其 他 DataNode 继续 完成 写 人 操作 。NameNode iÑ 
过 返回 的 信息 发 现 某 个 DataNode 的 写 入 任务 没有 完成 ,会 分 配 另 一 个 DataNode 完成 此 写 
入 操作 。 对 某 个 数据 块 来 说 只 要 有 一 个 DataNode 写 和 成功, 就 视 为 写 和 完成, 后续 将 启动 
自动 恢复 机 制 , 恢 复 到 指定 的 副本 数 。 


4.4 HDFS Shell 命令 


调用 文件 系统 (FS)Shell 命令 应 使 用 bin/hadoop fs<args> JE SK. FA AY FS Shell 
命令 使 用 URI 路 径 作 为 参数 。URI 格式 是 scheme: //authority/path, Xf HDFS 文件 系 
统 ,scheme 是 hdfs; 对 本 地 文件 系统 ,scheme 是 file。 其 中 scheme 和 authority 参数 都 是 可 
选 的 ,如 果 未 加 指定 ,就 会 使 用 配置 中 指定 的 默认 scheme。 一 个 HDFS 文件 或 目录 比如 
/parent/child 可 以 表示 成 hdfs://namenode: namenodeport/parent/child, zk # * faj $ HJ 
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/parent/child( 假 设 你 配置 文件 中 的 默认 值 是 namenode:namenodeport) 。 大 多 数 FS Shell 
命令 的 行为 和 对 应 的 Unix Shell 命令 类 似 ,不 同 之 处 在 下 面 介绍 各 命令 使 用 详情 时 指出 。 
出 错 信息 会 输出 到 stderr, 其 他 信息 输出 到 stdout. 

HDFS 中 具有 与 Linux 类 似 的 文件 权限 ,分 别 为 读 权限 (r)、 写 权限 (w) 和 执行 权限 
(x)。HDFS 中 没有 可 执行 文件 ,因此 执行 权 仅 用 于 控制 对 目录 下 的 文件 和 子 目录 的 访问 。 
HDFS 中 的 每 个 文件 和 目录 都 有 所 属 用 户 、 所 属 组 和 权限 属性 ,权限 值 是 由 文件 和 目录 所 属 
用 户 、 所 属 组 和 其 他 用 户 的 权限 构成 的 一 个 控制 属性 。 

输入 hadoop fs 将 输出 能 够 支持 的 命令 列表 。 

hadoop@ master:~/hadoop/bin$hadoop fs 

1.cat 命 令 

用 法 : hadoop fs -cat URI [URI ... ]. 


将 路 径 指 定 文件 的 内 容 输出 到 stdout。 
示例 : 


hadoop fs - cat /user/input.txt 


2 chem 命令 

用 法 : hadoop fs -chgrp [-R] GROUP URI [URI ... ]. 

改变 文件 所 属 的 组 。 使 用 -R 将 使 改变 在 目录 结构 下 递归 进行 。 命 令 的 使 用 者 必须 是 
文件 的 所 有 者 或 者 超级 用 户 。 

示例 : 


hadoop fs - chgrp groupl /hadoop/hadoopfile 


3. chmod 命令 

用 法 : hadoop fs -chmod [-R]-MODE[ . MODE]... | OCTALMODE>URI [URI ... ]. 

改变 文件 的 权限 。 使 用 -R 将 使 改变 在 目录 结构 下 递归 进行 。 命 令 的 使 用 者 必须 是 文 
件 的 所 有 者 或 者 超级 用 户 。 

示例 : 


hadoop fs - chmod 764 /hadoop/hadoopfile 


4 chown 命令 

用 法 : hadoop fs -chown [-R] [OWNER][:[GROUP]] URI [URI ]. 

改变 文件 的 拥有 者 。 使 用 -R 将 使 改变 在 目录 结构 下 递归 进行 。 命 令 的 使 用 者 必须 是 
超级 用 户 。 

示例 : 


hadoop fs - chown userl /hadoop/hadoopfile 
5. copyFromLocal 命令 
用 法 : hadoop fs -copyFromLocal 一 localsrc 二 URI。 


从 本 地 文件 复制 到 HDFS 文件 系统 中 。 
示例 : 


(83 


(0 Gi 
84 > 
ecd hadoop fs - copyFromLocal /home/hadoop/stdrj49.flv/user 
6. copy ToLocal 
用 法 : hadoop fs -copyToLocal [-ignorecrc] [-crc] URI<localdst>. 
从 HDFS 复制 文件 到 本 地 ,-ignorecrc 选项 可 忽略 文件 校 验 ,-crc 选项 进行 校 验 并 复制 
校 验 文件 。 
示例 : 


hadoop £s - copyToLocal /user/hadoop/stdrj.flv /home/hadoop/ 


7 中 命令 

用 法 : hadoop fs -cp URI [URI ... ] dest , 

将 文件 从 源 路 径 复 制 到 目标 路 径 。 这 个 命令 允许 有 多 个 源 路 径 , 此 时 目标 路 径 必须 是 
一 个 目录 。 

示例 : 

hadoop fs - cp /user/hadoop/filel /user/hadoop/file2 

hadoop £s - cp /user/hadoop/filel /user/hadoop/file2 /user/hadoop/dir 

8 和 命令 

FAW: hadoop fs -du URI [URI ... ]. 

显示 目录 中 所 有 文件 的 大 小 ,或 者 当 只 指定 一 个 文件 时 ,显示 此 文件 的 大 小 。 

示例 : 


hadoop fs - du /user/hadoop/ 


9. dus 命令 

用 法 : hadoop fs -dus<args>. 

显示 文件 的 大 小 ,与 du 类似, 区别 在 于 对 目录 操作 时 显示 的 是 目录 下 所 有 文件 大 小 
之 和 。 

示例 : 


hadoop fs - dus /user 


10. expunge 命令 
用 法 : hadoop fs -expunge。 
清空 回收 站 。 


1L get 命 令 

FAX: hadoop fs -get [-ignorecrc] [-crc ]}<sre><localdst>. 

复制 文件 到 本 地 文件 系统 。 可 用 -ignorecrc 选项 复制 CRC 校 验 失败 的 文件 。 使 用 -crc 
选项 复制 文件 以 及 CRC 信息 。 

示例 : 


hadoop fs - get /user/input.txt /home/hadoop 


12. getmerge 命令 
用 法 : hadoop fs -getmerge- src — localdst- [ addnl ]. 


Sai» HOSED | 
"iss 
接受 一 个 源 目 录 和 一 个 目标 文件 作为 输入 ,并 且 将 源 目 录 中 所 有 的 文件 连接 成 本 地 目 一 一 


标 文件 。addnl 是 可 选 的 ,用 于 指定 在 每 个 文件 结尾 添加 一 个 换行 符 。 


示例 : 
hadoop fs -getmerge /user /home/hadoop/test.txt 


将 HDFS 中 /user 目录 下 的 文件 合并 ,输出 到 本 地 文件 系统 ,保存 为 /home/hadoop/ 


test. txt, 


13. 命令 
用 法 : hadoop fs -Is<args>. 
如 果 是 文件 , 则 按照 如 下 格式 返回 文件 信息 : 


文件 名 < 副本 数 > 文件 大 小 修改 日 期 修改 时 间 权限 用 户 ID 组 ID 
如 果 是 目录 , 则 返回 它 直 接 子 文件 的 一 个 列表 ,就 像 在 Unix 中 一 样 。 目 录 返 回 列 表 的 


信息 如 下 : 
目录 名 <dir> 修 改 日 期 修改 时 间 权限 用 户 ID 组 ID 
示例 : 
hadoop fs -1s /user/input.txt 显示 /user/input.txt 文件 信息 
hadoop fs -1s /user/hadoop/ 显示 /user/hadoop/ 目 录 下 的 文件 
14. Isr 命令 


& 


= 


于 


用 法 : hadoop fs -Ilsr<args>. 
ls 命令 的 递归 版 本 。 类 似 于 Unix 中 的 Is -R。 


示例 : 

hadoop fs -1sr / 

drwxr-xr-x  -hadoop supergroup 0 2014- 09- 14 15:42 /user 
-rw-r--r-- 3 hadoop supergroup 8 2014- 09- 14 14:26 /user/aa.txt 
-rw-r--r-- 3 hadoop supergroup 44 2014- 09- 14 13:13 /user/input.txt 
15. mkdir 命令 


用 法 : hadoop fs -mkdir- paths , 

接受 路 径 指定 的 URI 作为 参数 ,创建 这 些 目录 。 其 行为 类 似 于 Unix 的 mkdir -p , 它 会 
路 径 中 的 各 级 父 目 录 。 

示例 : 


hadoop fs - mkdir/user/hadoop/dirl /user/hadoop/dir2 
hadoop fs -mkdir hdfs://master:9000/user/hadoop/dir 
hadoop fs -mkdir hdfs://192.168.1.10:9000/user/hadoop/dir3 
16. movefromLocal 命令 

用 法 : hadoop fs -moveFromLocal<sre><dst>. 

将 文件 或 目录 从 本 地 文件 系统 移动 到 HDFS。 

示例 : 
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(0 Gi 


hadoop@ master:-$hadoop fs -moveFromLocal test.txt /user/hadoop 
将 本 地 文件 系统 中 当前 路 径 下 的 test. txt 文件 移动 到 HDFS 中 。 
hadoop fs -moveFromLocal /home/hadoop/aa.txt /user/hadoop 


17. mv 命令 
用 法 : hadoop fs -mv URI [URI ... ]<dest>. 
将 文件 从 源 路 径 移动 到 目标 路 径 。 这 个 命令 允许 有 多 个 源 路 径 , 此 时 目标 路 径 必须 是 


一 个 目录 。 不 允许 在 不 同 的 文件 系统 间 移 动 文 件 。 


示例 : 


hadoop fs -mv /user/hadoop/aa.txt /user/hadoop/bb.txt 

hadoop fs -mv hdfs://master:9000/user/hadoop/bb.txt hdfs://master:9000/user/hadoop/cc.txt 
18. put 命令 

用 法 : hadoop fs -put<localsre>...<dst>, 

从 本 地 文件 系统 中 复制 单个 或 多 个 源 路 径 到 目标 文件 系统 。 也 支持 从 标准 输入 中 读 取 


输入 写 人 到 目标 文件 系统 中 。 


示例 : 

hadoop fs -put /home/hadoop/aa.txt /user/hadoop/ 

把 Linux 服务 器 /home/hadoop/ 目 录 下 的 aa. txt 文件 复制 到 HDFS/user/hadoop 目录 下 。 
hadoop fs -put /home/hadoop/ aa.txt /user/hadoop/aa2.txt 


把 Linux 服务 器 /home/hadoop/ 目 录 下 的 aa. txt 文件 复制 到 HDFS/user/hadoop 目录 


下 ,并 改名 为 aa2. txt。 


hadoop fs - put - hdfs://192.168.1.10:9000/user/input.txt 


从 标准 输入 中 读 取 输入 ,保存 到 hdfs://192. 168. 1. 10:9000/user/input. txt, 
AFR: hds 前 有 一 空格 。 


19. mm 命令 

用 法 : hadoop fs -rm URI [URI...]. 
删除 指定 的 文件 。 只 删除 非 空 目录 和 文件 。 
示例 : 


hadoop fs - rm /user/hadoop/test.txt 


20 mr 命令 

用 法 : hadoop fs -rmr URI [URI ... ]. 
delete 的 递归 版 本 。 

示例 : 


hadoop fs - rmr /usr 
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21 setrep 命令 = 
用 法 : hadoop fs -setrep [-R]<path>. 
改变 一 个 文件 的 副本 系数 。-R 选项 用 于 递归 改变 目录 下 所 有 文件 的 副本 系数 。 


示例 : 
hadoop fs - setrep -w 3 -R /user/hadoop/dirl 


20. stat fip 

用 法 : hadoop fs -stat URI [URI ... ]. 

返回 指定 路 径 的 统计 信息 。 

示例 : 

hadoop fs - stat /user/hadoop/dirl 

2014- 09- 14 09:51:24 

23, tail 命令 

用 法 : hadoop fs -tail [-f] URI. 

将 文件 尾部 1K 字 节 的 内 容 输 出 到 stdout。 支 持 -f 选项 ,行为 和 Unix 中 一 致 。 
示例 : 


hadoop fs - tail /user/input.txt 


24 test 命令 

用 法 : hadoop fs -test -[ezd] URI. 

选项 说 明 ; 

-e: 检查 文件 是 否 存在 。 如 果 存 在 则 返回 0。 
-z: 检查 文件 是 否 是 0 字 节 。 如 果 是 则 返回 0。 
-d: 如 果 路 径 是 个 目录 , 则 返回 1, 和 否则 返回 0。 
示例 : 

hadoop fs -test - e /usr/hadoop/filel 

25. text 命令 

FAX: hadoop fs -text<sre>. 

将 源 文件 输出 为 文本 格式 。 人 允许 的 格式 是 zip 和 TextRecordInputStream, 
示例 : 

hadoop fs - text /user/hadoop/cc.txt 

26. touchz 命令 

用 法 : hadoop fs -touchz URI [URI ...]. 
创建 一 个 0 字 节 的 空 文件 。 

示例 : 


hadoop fs -touchz /user/hadoop/empty 


‘ mm 


4.5 _ API 访问 HDFS 


Hadoop 的 主体 是 用 Java 编写 的 ,因此 提供 了 大 量 的 API 供用 户 使 用 ,操作 HDFS, 本 
节 将 介绍 使 用 API 操作 HDFS 的 方法 。 


451 编译 Hap 的 Eip 插件 


Hadoop 在 0. 20. 2 之 后 就 不 再 提供 Eclipse 插件 的 编译 包 , 而 是 直接 提供 一 堆 源 码 , 可 
能 是 考虑 到 Eclipse 版 本 的 问题 ,各 个 开发 者 的 偏好 不 一 样 ,用 的 版 本 都 不 一 样 ,与 其 自己 编 
译 不 如 给 开发 者 ,这 样 会 更 好 。 

1 下 载 Hadoop 121 

下 载 地 址 为 : http://hadoop. apache. org/releases. html # Download( 注 意 不 要 下 载 有 
bin 字样 的 , 它 不 带 源 代码 ) ,解压 在 自 定 义 的 一 个 目录 中 (最 好 全 英文 路 径 , 中 文 路 径 会 出 
问题 ) 。 本 例 中 解压 的 目录 为 D:\hadoop_book\hadoop-1. 2. 1。 

2 导入 Hadoop Eclipse 插件 工程 

TE Eclipse 中 选择 File— Import — General/Existing Projects into Workspace 导入 
Hadoop 的 Eclipse 搬 件 项 目 。 选 择 路 径 为 D: Vhadoop. book Vhadoop-1. 2. 1\sre\contrib\ 
eclipse-plugin, 然 后 单 击 Finish ,其 默认 的 项 目 名 称 是 MapReduceTools, 如 图 4-7 所 示 。 


Q mor. — 
Import Projects 7^ 
Select a directory to search for existing Eclipee projects. A 
@ Select root directory 0\hadoop_beol\hadoop-1.2.1\ere\contib\ecipee-plugin ~ | Browse) 
© Select archive flee | ~] Browse. 
Projects: 
V] MapReduceTools (Ahadcop.bockihadoop-Lz.lrovcontribYedipse-pugin) a |(. Select All| 
Deselect Ali | 
(ia Rafah, | 
Options 
IF] Search for nested projects 
IE Copy projects into workspace 
EI Hide projects that already exist in the workspace 
Working sets 
Add project to working sete 
Working sets: [ ~] [_ seen 
[9] a) "e NNI TN 


4-7 导入 Hadoop-Eclipse 插件 工程 


3. 修改 buildoanl 

(1) 在 Eclipse 窗口 左 侧 双击 build. xml, 打 开 该 文件 。 其 实 这 个 文件 就 在 hadoop. 
home( 这 里 的 hadoop. home 为 hadoop 主 目录 )\src\contrib\eclipse-plugin 目录 下 ,在 文件 
中 找到 二 target name "jar" . H iff] 76 RK — copy 相关 的 先 全 部 删除 ,然后 添加 如 下 二 copy 
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file—... ,当然 ,这 里 的 hadoop-core-XXX.jar 中 的 XXX 是 版 本 号 ,根据 下 载 的 hadoop 的 
版 本 进行 设置 ,也 可 以 在 后 面 的 build-contrib. xml 中 进行 设置 。 


« copy file="$ {hadoop.root}/hadoop- core- $ (version).jar" tofile="${build.dir}/lib/hadoop- 
core.jar" verbose- "true"/» 

« copy file-"$(hadoop. root) /lib/commons- cli- $(commons- cli.version}.jar" todir- "$(build. 

dir)/lib" verbose- "true"/» 

« copy file="${hadoop.root ) /lib/commons- lang- 2.4.jar" todir="${build.dir}/lib" verbose=" 

true"/» 

« copy file-"$ (hadoop. root )/lib/commons- configuration- 1.6.jar" todir- "${build.dir}/lib" 

verbose- "true"/» 

€ copy file="${hadoop. root]/lib/jackson- mapper- asl- 1.8.8. jar" todir="${build.dir}/lib" 

verbose- "true"/» 

«copy file="${hadoop. root }/lib/jackson- core- asl- 1.8.8. jar" todir="${build. dir}/lib" 

verbose- "true"/» 

« copy file="${hadoop. root ]/lib/commons- httpclient- 3.0.1. jar" todir- "$(build.dir]/lib" 

verbose- "true"/» 


(2) 添加 jar 包 到 classpath 
还 是 build. xml 文件 中 ,找到 


«path id- "classpath"> 
在 其 末尾 加 上 : 


<fileset dir= "$(hadoop.root]"» 
<include name-"* .jar"/> 

</fileset> 

4. 修改 META-INEMANIFEST.MF 

在 Eclipse 窗口 左 侧 META-INF 文件 夹 下 ,双击 MANIFEST. MF 文件 ,其 实 该 文件 在 
hadoop. home\src\contrib\eclipse-plugin\ META-INF 目录 下 找到 Bundle-ClassPath: ,把 
内 容 改 为 如 下 内 容 : 

Bundle- ClassPath: classes/, lib/hadoop- core. jar, lib/commons- cli- 1.2.jar, lib/commons- 


httpclient- 3.0.1.jar, lib/jackson- core- asl- 1.8.8.jar, lib/jackson- mapper- asl- 1.8.8.jar, 


lib/commons- configuration- 1.6.jar, lib/commons- lang- 2.4.jar 
AFE: KARTERI, GN AER jar 包 时 会 报错 。 


5. 修改 build-contribxml 文件 

TE hadoop. home/src/contrib 文件 夹 下 ,找到 build-contrib. xml X ff. 1€ 8| < project 
name= "hadoopbuildcontrib" xmlns; ivy — "antlib: org. apache. ivy. ant" >. 44< property. 
name= "hadoop. root" location—" $ (root) /. . /. . /. ./"/ > 语句 改 为 如 下 内 容 : 

<property name= "hadoop.root" location="D:\hadoop_book\hadoop- 1.2.1"/> 


<property name= "eclipse.home" location="D:\hadoop_book\eclipse” /> 
<property name= "version" value="1.2.1"/> 


这 里 hadoop. root 是 指 hadoop 源码 所 在 目录 ,eclipse. home #2 4% Eclipse 安装 目录 ， 


version 是 指 Hadoop 版 本 。 


6 编译 

右 击 build. xml, 在 弹出 菜单 中 选择 Run As-- Ant Build ,在 “控制 台 ” 会 显示 : 

BUILD SUCCESSFUL 

Total time: X seconds 

也 有 可 能 停 在 编译 处 不 动 ,重新 执行 Run As Ant Build, 用 户 会 发 现 编译 很 快 完成 。 

编译 后 的 jar 文件 位 于 D:\hadoop_book\hadoop-1. 2. 1\build\contrib\eclipse-plugin， 
文件 名 为 hadoop-eclipse-plugin-1. 2. 1. jar。 把 文件 复制 到 eclipse\plugins 目录 下 。 


«e 在 EPE 中 安装 Hetp 插 件 


(1) 启动 Eclipse( 这 里 是 Indigo Service Release 2 版 本 ,hadoop 插件 对 Eclipse 版 本 有 
要 求 , 二 者 有 可 能 发 生 冲 突 ) ,打开 菜单 Windows 一 Preferences ,在 窗口 左 侧 会 看 到 Hadoop 
Map/Reduce, 设 置 Hadoop installation directory, 这 里 是 Windows 下 解压 的 hadoop 文件 
3€; D:\hadoop_book\hadoop-1. 2.1。 设 置 这 个 路 径 , 以 便 开发 时 自动 引入 jar 包 , 如 图 4-8 
所 示 。 

(2) 打开 透视 图 。 选 择 菜单 Windows Open Perspective, 单 击 Map/Reduce, 打 开 一 个 
新 的 Perspective, 如 图 4-9 所 示 。 


CVS Repository Exploring 
Debug 

Beit 

& Java (default) 

d Java Browsing 

Te! Java Type Hierarchy 

^ 

(9 Planning. 

Is Resource. 

E Team Synchronizing 
XXML 


[ype Mer text Hadoop Map/Reduce 


b General 


Hadoop installation directory: DAhadoop book\hadoop-12.1 


> Code Rocommenders 


> Help 
 Instal/Updato 


Ce JE 


4-8 Map/Reduce 插件 参数 4-9 打开 Map/Reduce 


(3) 建立 Map/Reduce Locations. 
在 窗口 的 下 方 选择 Map/Reduce Locations 标签 ,在 标签 下 方 空 白 处 右 击 ,选择 弹出 菜 

单 New Hadoop location... ,如 图 4-10 所 示 。 
E Problems £ Tasks @ Javadoc |G Map/Reduce Locations 52 | | 


Location 


图 4-10 新 建 Hadoop Location 
新 建 一 个 Map/Reduce Locations ,打开 Edit Hadoop location 窗口 ,如 图 4-11 所 示 。 


Define Hadoop location 


Define the location of a Hadoop infrastructure for running MapReduce 
L applications. 


General | Advanced parameters 


Location name: hadoop 

Map/Reduce Master DFS Master 

Host 192168110 El Use M/R Master host 
Host: [192.168.1.1 


Port 9001 Port 9000 


User name: Hadoop 
SOCKS proxy 
El Enable SOCKS proxy 
Host: [host 


Port: [1080 


Load from file | | Validate location 


4-11 配置 Hadoop location 的 General 项目 


在 Map/Reduce Master 框 中 输入 Master 的 IP 192. 168. 1. 10, Port 输入 9001. DFS 
Master 的 端口 是 9000 ,user name 是 Master 机 器 的 登录 用 户 名 hadoop. 

配置 Advanced parameters 选项 : 找到 hadoop. tmp. dir, 修 改 成 为 core-site. xml 中 设 
置 的 地 址 ,此 处 设 为 /home/hadoop/hadoop/tmp。 

AMEE: Æ Hadoop 1. 2. 1 版 本 的 Advanced parameters 选项 中 已 经 没有 hadoop. 
job. ugi 参数 。 

(4) 修改 Windows 系统 的 用 户 名 。 

在 桌面 的 “计算 机 ”上 右 击 ,选择 弹出 菜单 项 “管理 ”, 打 开 “ 计 算 机 管理 "窗口 ,展开 “本 地 
用 户 和 组 ”, 单 击 “ 用 户 ”, 在 中 部 窗口 ,把 系统 的 Administrator 更 改 为 与 hadoop 集群 的 用 户 
名 相 一 致 ,这 里 改 为 hadoop, 如 图 4-12 所 示 。 


E 
Guest 
Bhadoop hadoop 


图 4-12 修改 Windows 系统 的 用 户 名 
设置 完成 后 ,需要 注销 或 重启 Windows, 启 动 Eclipse 后 ,Project Explorer 窗口 显示 内 


容 如 图 4-13 所 示 , 可 以 对 HDFS 文件 系统 进行 操作 。 在 某 文件 夹 上 右 击 ,选择 弹出 菜单 项 ， 
可 以 进行 从 DFS 中 下 载 或 上 传 文件 .创建 文件 夹 等 操作 。 
eim. 
(1) 创建 修改 Hadoop Location 时 , 右 击 选择 New 
Hadoop location... 后 , Eclipse 无 反应 ,可 能 的 原因 是 pp reet 


Eclipse 版 本 与 Hadoop 插件 不 兼容 ,建议 更 换 一 个 T edi 
Eclipse 版 本 。 4 & hadoop (1) 
(2) æ E Z Hadoop location 后 ,Eclipse 无 法 连接 到 rin 


服务 器 中 的 hadoop, 可 以 在 master 服务 器 中 执行 > $i MapReduceTools 


netstat -an | grep 9000 


查看 Hadoop 是 否 在 监听 master 机 器 上 IP 的 9000 
端口 , 若 只 监听 了 127.0.0.1 的 9000 端口 ,很 有 可 能 是 
/etc/hosts 文 件 配置 错误 引起 的 。 

在 本 次 安装 中 ,hadoop 需要 安装 在 命令 行 下 的 Ubuntu Server 中 ,不 能 安装 Linux 版 
Eclipse 进行 开发 ,需要 在 Windows 下 安装 Eclipse 进行 开发 ,在 hadoop 的 /hadoop/ 
contrib/eclipse-plugin 下 有 hadoop-1. 2. 1-eclipse-plugin. jar. 把 该 文件 放 到 Eclipse 的 
plugins XHK F. 


453 Hrbrp LAL 读 取 数 据 


从 Hadoop 文件 系统 读 取 数 据 最 简单 的 方法 是 使 用 java. net. URL 类 打开 一 个 数据 流 ， 
然后 从 中 读 取 数据 。 但 要 让 Java 能 够 识别 Hadoop 文件 系统 的 URL, 可 以 通过 URL 的 
setURLStreamHandlerFactory 方法 设置 Hadoop 文件 系统 的 URLStreamHandlerFactory 
的 实现 类 FsUrlStreamHandlerFactory, 而 这 一 方法 在 Java 虚拟 机 中 只 能 被 调用 一 次 , 因 
此 ,该 方法 要 放 在 static 块 中 。 如 果 程 序 的 其 他 组 件 设置 了 URLStreamHandlerFactory, 就 
不 能 青 使 用 上 述 方法 从 Hadoop 读 取 数据 。 


图 4-13 Project Explorer 窗口 中 
的 DFS locations 


import java.io.IOException; 
import java.io.InputStream; 
import java.net.URL; 
import org.apache.hadoop.fs.FsUrlStreamHandlerFactory; 
import org.apache.hadoop.io.IOUtils; 
public class HDFSURLReader ( 
static{ 
URL.setURLStreamHandlerFactory (new FsUrlStreamHandlerFactory ()); 
} 
public static void main(String[] args) { 
InputStream stream- null; 
try{ 
stream= new URL (args [0]) .openStream(); 
//stream- new URL ("hdfs: //192.168.1.10:9000/user/input.txt"). 
openStream(); 
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IOUtils.copyBytes (stream, System.out, 1024, false); 
) catch (IOException e) ( 

IOUtils.closeStream (stream); 
} 


} 


在 Eclipse 中 设置 程序 运行 参数 为 hdfs://192. 168. 1. 10:9000/user/testl. txt, 这 样 程 
序 运 行 后 , 即 可 显示 /user/ 目 录 下 的 testl. txt 的 内 容 。 代 码 中 用 到 org. apache. hadoop. io. 
IOUtils. copyBytes() 方 法 把 数据 从 一 个 流 复制 到 另 一 个 流 , 其 中 第 一 个 参数 为 输入 流 ,第 
二 个 参数 为 输出 流 ,第 三 个 参数 为 复制 缓冲 区 大 小 ,第 四 个 参数 表示 复制 后 关闭 数据 流 。 最 
后 使 用 IOUtils. closeStream() 关 闭 数据 流 。 


as4 Resptem 类 


由 于 URLStreamHandlerFactory 有 使 用 上 的 限制 ,就 要 使 用 Hadoop 提供 的 FileSystem 
类 , 它 是 一 个 抽象 类 ,提供 了 多 个 基于 此 类 的 应 用 于 不 同 场合 的 具体 实现 ,例如 用 于 本 地 文 
件 访问 的 fs. LocalFileSystem、 用 于 HDFS 文件 访问 的 hdfs. DistributedSystem 等 。 这 些 类 
的 实例 可 以 通过 FileSystem 类 的 get() 方 法 得 到 。get 方法 描述 为 ; 


Static FileSystem get (Configuration conf) throws IOException 
static FileSystem get (URI uri, Configuration conf) throws IOException 
Configuration 对 象 封 装 了 客户 端 或 服务 器 端的 配置 ,这 是 用 路 径 读 取 配 置 文件 设置 
的 ,一般 为 conf/core-site. xml。 第 一 种 方法 返回 的 是 默认 的 文件 系统 , 若 未 设置 则 返回 本 
地 文件 系统 。 第 二 种 方法 使 用 指定 的 URI 方案 , 若 未 指定 URI 方案 , 则 返回 默认 的 文件 
系统 。 
该 类 封装 了 几乎 所 有 的 文件 操作 ,例如 mkdir, delete 等 。 因 此 ,可 以 得 出 操作 文件 的 程 
序 库 框架 是 这 样 的 : 
operator () 
t 
得 到 Configuration 对 象 
得 到 Filesystem TR 
进行 文件 操作 
H 


下 面 以 实例 介绍 在 HDFS 中 创建 文件 、 删 除 文件 . 读 取 文 件 . 写 人 文件 。 


1 创建 文件 
通过 FileSystem. create(path, overwrite) 可 以 在 HDFS 上 创建 文件 ,path 为 文件 的 完 
整 路 径 ,overwrite NEA HH. 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
public class CreateFile( 
public static void main(String[] args) throws Exception { 


Configuration config- new Configuration (); 
FileSystem hdfs- FileSystem.get (config); 
Path f-new Path ("/test.txt"); 

hdfs.create(f, true); / /crue 表示 覆盖 创建 

hdfs.close(); 


H 


2 重 命名 


通过 FileSystem. rename(Path src. Path dst) 对 指定 的 HDFS 文件 进行 重 命名 ,其 中 


src 为 原文 件 名 ,dst 为 改 后 文件 名 。 


import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

public class HDFSRename ( 

public static void main(String[] args) throws IOException ( 

Configuration conf- new Configuration(); 
FileSystem hdfs- FileSystem.get (conf) ; 
Path src-new Path("/test.txt"); 
Path dst- new Path ("/test2.txt"); 
Boolean isRenamed- hdfs.rename (src, dst); 


) 


3. 创建 目录 
通过 FileSystem 类 的 mkdir(Path path) 方 法 可 以 创建 HDFS 下 的 文件 夹 。 


import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

public class HDFSMkdir ( 

public static void main(String[] args) throws IOException ( 

Configuration conf- new Configuration (); 
FileSystem fs=FileSystem.get (conf) ; 
Path dir=new Path ("/hadoopdir") ; 
fs.mkdirs (dir); 


) 


4 删除 文件 或 文件 夹 
使 用 FIleSystem 的 delete() 方 法 可 以 永久 地 删除 一 个 文件 或 目录 : 


public boolean delete (Path f, boolean recursive) throws IOException 


如 果 传 人 的 Path f 是 一 个 文件 或 者 空 目 录 ,recursive 的 值 会 被 忽略 。 当 recursive 值 为 


true 时 ,给 定 的 非 空 目录 连同 其 下 文件 会 被 一 并 删除 。 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

public class DeleteFile ( 

public static void main(String[] args) throws IOException ( 
Configuration conf- new Configuration (); 

FileSystem fs=FileSystem.get (conf) ; 
Path pathl-new Path ("/hadoop") ; 
fs.delete(pathl, true); 
// 递 归 删 除 /hadoop 文件 夹 , 即 文件 夹 及 其 下 文件 都 被 删除 
Path filepath- new Path ("/test2.txt"); 
fs.delete(filepath, false); // 非 递归 删除 /test2.txt 文 件 
fs.close(); 


) 


5. 读 取 数 据 

读 取 HDFS 中 的 文件 ,需要 使 用 FSDatalnputStream 类 , 这 个 类 的 实例 是 通过 
FileSystem 的 open() 方 法 获得 ,获得 FSDatalnputStream 类 的 实例 后 ,可 以 通过 此 类 的 
read() 方 法 读 取 数 据 ,除了 正常 的 顺序 读 取 操作 外 ,FSDatalnputStream 还 提供 了 seek OZ; 
法 定位 到 文件 中 的 任意 一 个 绝对 位 置 , 或 者 使 用 带 有 偏 移 量 参数 的 read( ) 方 法 ,实现 数据 
的 随机 读 取 。 需 要 注意 的 是 seek() 方 法 的 性 能 开销 相对 较 高 ,使 用 时 应 注意 。 关 于 数据 读 
取 请 参考 4. 3. 4 小 节 数 据 的 读 取 过 程 。 


import java.io.IOException; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FSDataInputStream; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IOUtils; 
public class ReadFile ( 
public static void main(String[] args) throws IOException ( 
Configuration conf- new Configuration (); 
FileSystem fs- FileSystem.get (conf); 
Path path- new Path ("/user/testl.txt"); 
if ( fs.exists (path) ) // 检 查 文件 是 否 存在 
{ 
try { 
FSDataInputStream is- fs.open (path) ; 
// 使 用 Filesystem 类 的 open () 方 法 获得 FSDataInputStream % S: ii 
IOUtils.copyBytes (is, System.out, 1024, false); 
is.seek(5); 
// 回 到 文件 的 5 位 置 
IOUtils.copyBytes (is, System.out, 1024, false); 
} catch (Exception e) { 
IOUtils. closeStream (fs); 


6 写 数据 
FileSystem 类 还 有 一 系列 创建 文件 的 方法 ,最 简单 的 方式 就 是 给 拟 创建 的 文件 指定 一 
个 路 径 对 象 ,然后 返回 一 个 用 来 写 的 输出 流 。 


public FSDataOutputStream create (Path path) throws IOException 


create 方法 有 重 载 的 版 本 ,允许 指定 是 否 强制 覆盖 已 有 的 文件 ,文件 副本 数量 ` 写 人 文 
件 时 的 缓冲 大 小 ,文件 块 大 小 及 文件 许可 。 

还 有 一 个 用 于 传递 回调 接口 的 重 载 方法 Progressable, 这 样 , 写 数据 的 应 用 就 会 被 告知 
数据 写 入 数据 节点 的 进度 。 


package org.apache.hadoop.util; 

public interface Progressable{ 
public void progress (); 

} 


创建 文件 的 方法 还 有 append O , 它 在 一 个 已 有 文件 中 追加 数据 。 
public FSDataOutputStream append (Path f) throws IOException 


有 了 这 个 方法 ,可 以 在 文件 尾部 写 人 数据 ,这 在 写 日 志 的 应 用 中 比较 重要 。 
下 面 的 代码 演示 了 如 何 将 本 地 文件 写 人 HDFS 中 ,每 64KB 数据 写 入 数据 节点 后 会 打 
印 一 个 星 号 告知 写 人 进度 。 


import java.io.BufferedInputStream; 
import java.io.IOException; 
import java.io.InputStream; 
import java.io.OutputStream; 
import java.net.URI; 
import java.io.FileInputStream; 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.io.IOUtils; 
import org.apache.hadoop.util.Progressable; 
public class CopyFileWithProgress ( 
public static void main(String[] args) throws IOException ( 
String localfile- args [0]; 
String dst-args[1]; 
Configuration conf- new Configuration (); 
InputStream is- new BufferedInputStream (new FileInputStream (localfile) ); 
FileSystem fs=FileSystem.get (URI.create (dst), conf); 
OutputStream out- fs.create (new Path (dst), new Progressable() { 
public void progress () { 
System.out.print ("* "); 
) 
n; 


IOUtils.copyBytes (is, out, conf, false); 
} 
在 Eclipse 中 运行 时 ,输入 运行 参数 : 


C:\\aa.txt 
hdfs://192.168.1.10:9000/user/testl.txt 


455 取得 HF5 的 元 信息 


HDFS 文件 系统 中 文件 或 目录 的 元 信息 非常 重要 ,要 得 到 这 些 元 数据 信息 可 以 使 用 
FileStatus 类 ,该 类 封装 了 文件 系统 中 文件 和 目录 的 元 数据 信息 ,包括 文件 长 度 、 块 大 小 、 副 
本 数 \ 修 改 时 间 、 所 有 者 及 权限 等 信息 。 

FileSystem 类 的 getFileStatus ( ) 方 法 用 于 获得 文件 或 目录 的 FileSystem 对 象 ， 
FileSystem 类 封装 了 大 量 的 方法 用 于 获取 元 数据 信息 。 下 列 代 码 显 示 了 一 个 文件 的 元 
信息 : 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileStatus; 

import org.apache.hadoop.fs.FileSystem; 


import org.apache.hadoop.fs.Path; 
import java.sql.Timestamp; 


public class GetFileMetadata ( 
public static void main(String[] args) throws IOException ( 
Configuration conf- new Configuration (); 
FileSystem hdfs- FileSystem.get (conf) ; 
Path fpath- new Path ("/user/hadoop/stdrj49.flv") ; 
FileStatus fileStatus- hdfs.getFileStatus (fpath) ; 
if(fileStatus.isDir()-- false)( 
System.out .println(" 这 是 一 个 文件 ") ; 
) 
System.out.println(" 文 件 路 径 为 : "+ fileStatus.getPath()); 
System.out.println (" 文 件 长 度 为 : "+ fileStatus.getLen()); 
System.out.println (" 文 件 块 大 小 为 : "+ fileStatus.getBlockSize()); 
System.out.println(" 文 件 的 副本 数 : "+ fileStatus.getReplication()); 
System.out.println(" 文 件 所 有 者 为 : "+ fileStatus.getOwner ()); 
System.out.println(" 文 件 所 在 的 组 群 为 : "+ £ileStatus.getGroup ()); 
System.out.println (" 文 件 的 权限 为 : "+ £ileStatus.getPermission()); 
System.out.println (" 最 后 访问 时 间 : "+ new Timestamp (fileStatus. 
getAccessTime ())); 
System.out.println (" 最 后 修改 时 间 : "+ new Timestamp (fileStatus. 
getModificationTime ()).toString()); 


) 
运行 结果 如 下 所 示 。 


‘ Qh Xie 


Baa 这 是 一 个 文件 
文件 路 径 为 : hdfs://192.168.1.10:9000/user/hadoop/stdrj49.flv 
文件 长 度 为 : 95281174 
文件 块 大 小 为 : 67108864 
文件 的 副本 数 : 3 
文件 所 有 者 为 : hadoop 
文件 所 在 的 组 群 为 : supergroup 
文件 的 权限 为 : rw-r--r-- 
最 后 访问 时 间 : 2014- 09- 16 20:33:10.818 
最 后 修改 时 间 : 2014- 09- 14 23:41:51.532 
数据 第 0 块 : slavel 
数据 第 1 块 : slave2 


下 列 代码 显示 了 一 个 目录 的 元 数据 信息 ,代码 中 用 到 了 listStatus() 方 法 , 它 会 返回 0 个 或 
多 个 FileStatus 对 象 ,代表 目录 所 包含 的 文件 或 目录 。 该 段 代 码 模拟 了 hadoop fs -ls path 
的 功能 。 


import java.io.IOException; 

import java.sql.Timestamp; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileStatus; 
import org.apache.hadoop.fs.FileSystem; 
import org.apache.hadoop.fs.Path; 


public class GetDirMetaData { 
public static void main(String[] args) throws IOException ( 
Configuration conf- new Configuration (); 
FileSystem hdfs- FileSystem.get (conf) ; 
Path fpath- new Path (args [0]) ; 
FileStatus dirStatus- hdfs.getFileStatus (fpath) ; 
if (dirStatus.isDir()) { 
System.out .println(" 这 是 一 个 目录 , 目录 下 的 文件 及 子 目 录 有 : "); 
for(FileStatus fs: hdfs.listStatus (fpath) ) { 
System.out.println((fs.isDir()?"d":"- ") 
+fs.getPermission()+" " 
+fs.getOwner()+":" 
+fs.getGroup()+" " 
+fs.getLen()+" " 
+new Timestamp (dirStatus.getModificationTime()).toString()+" " 
+ f£s.getPath ()); 


} 
程序 运行 时 ,输入 参数 : /user/hadoop ,运行 结果 如 下 所 示 。 


这 是 一 个 目录 , 目录 下 的 文件 及 子 目 录 有 : 

- rw- r- - r- - hadoop supergroup 8 2014- 09- 14 23:41:51.532 hdfs://192.168.1. 10: 9000/user/ 
hadoop/cc.txt 

drwxr- xr- x hadoop supergroup 0 2014- 09- 14 23:41:51.532 hdfs://192.168.1. 10: 9000/user/ 


xax DS | 


hadoop/dir 

drwxr- xr- x hadoop supergroup 0 2014- 09- 14 23:41:51.532 hdfs://192.168.1. 10: 9000/user/ 
hadoop/dirl 

drwxr- xr- x hadoop supergroup 0 2014- 09- 14 23:41:51.532 hdfs://192. 168.1. 10: 9000/user/ 
hadoop/dir2 

drwxr- xr- x hadoop supergroup 0 2014- 09- 14 23:41:51.532 hdfs://192.168.1. 10: 9000/user/ 
hadoop/dir3 

- rw- r- - r- - hadoop supergroup 0 2014- 09- 14 23: 41:51. 532 hdfs://192.168.1. 10: 9000/user/ 
hadoop/empty 

-rw-r-- r- -hadoop supergroup 1166 2014- 09- 14 23:41:51.532 hdfs://192.168.1.10:9000/user/ 
hadoop/start- all.sh 

-rw-r- -r- -hadoop supergroup 95281174 2014- 09- 14 23:41:51.532 hdfs://192.168.1.10: 9000/ 
user/hadoop/stdrj49.flv 


4.6 HDES 的 高 可 用 性 


可 用 性 是 衡量 一 个 系统 对 外 提供 服务 质量 的 重要 指标 ,通常 用 正常 服务 时 间 与 总 运行 
时 间 的 百分比 来 表示 ,可 用 性 计算 公式 如 下 所 示 : 
_ MTTF 

MTTF +MTTR 

百分比 越 大 可 用 性 越 高 。 根 据 以 上 公式 可 知 ,影响 可 用 性 指标 的 因素 有 两 个 : 平均 无 
故障 时 间 CMTTF) 与 平均 维修 时 间 (MTTR)。 平 均 无 故障 时 间 越 长 可 用 性 越 高 ,平均 维修 
时 间 越 短 可 用 性 也 越 高 。 因 此 ,提高 HDFS 系统 的 可 用 性 ,也 就 是 要 尽量 延长 Hadoop 系统 
的 服务 时 间 , 缩 短 维护 时 间 。 

影响 Hadoop 系统 可 用 性 的 因素 有 两 种 。 

。 因 软 硬件 等 各 种 因素 导致 NameNode 所 在 的 服务 器 宕 机 ,使 整个 集群 停止 工作 。 

。 因为 NameNode 节点 软 硬 需要 升级 ,导致 系统 在 短 时 间 内 不 可 用 。 

Hadoop 2. X 之 前 ,在 集群 中 只 有 一 个 NameNode 节点 ,这 个 NameNode 节点 中 只 有 一 
个 命名 空间 , 它 存储 整个 HDFS 文件 系统 中 所 有 的 元 数据 (包括 文件 路 径 、 数 据 块 分 布 、 索 
引信 息 等 ) ,这样 就 存在 单 节点 问题 的 隐患 。 一 旦 NameNode 节点 宕 机 ,整个 集群 将 停止 
运行 。 
4&1 元 数据 的 备份 


为 了 保护 NameNode 节点 上 元 数据 的 安全 ,可 以 在 Hadoop 配置 文件 中 进行 设置 把 元 
数据 保存 到 多 个 路 径 下 。 在 配置 文件 hdfs-site. xml 中 有 dfs. name. dir 参数 指定 文件 系统 
存放 的 路 径 , 如 不 指定 则 默认 为 core-site. xml 中 配置 的 hadoop. tmp. dir 目录 。 可 以 在 
dfs. name. dir 参数 中 用 逗号 分 隔 的 方式 指定 多 个 路 径 ,文件 系统 的 元 数据 就 会 被 复制 多 份 
存放 到 指定 的 路 径 下 。 这 些 路 径 可 以 是 一 个 或 多 个 远程 共享 目录 ,如 网 络 文件 系统 (NFS) 
下 的 共享 目录 。 当 NameNode 宕 机 时 ,可 以 启用 备用 的 NameNode 节点 ,将 备用 节点 的 路 
径 也 指向 远程 共享 目录 ,从 而 保障 了 元 数据 的 安全 。 

下 面 是 dfs. name. dir 参数 配置 示例 : 


HA X 100% 
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«property» 
<name> dfs .name .dir« /name> 
<value> /home/hadoop/hadoop/name, /mnt /namenode- backup< /value> 
< final> true< /final> 
</property> 
示例 中 的 参数 值 /mnt/namenode-backup 即 为 一 个 远程 NFS 共享 目录 。 参 数 dfs. 
name. edits. dir 也 可 以 采用 这 种 方式 把 日 志文 件 备份 到 共享 目录 中 。 


462 使 用 SocauNne 进 行 备份 


Hadoop 1.X 版 本 中 ,系统 中 除了 一 个 主 NameNode 外 ,还 运行 一 个 辅助 NameNode 节 
点 , 称 为 SecondaryNameNode。SecondaryNameNode 的 作用 是 定期 为 NameNode 创建 检 
查 点 ,备份 元 数据 (fsimage 文件 ) 和 元 数据 操作 日 志 (edits)。SecondaryNameNode 节点 备 
份 数 据 的 过 程 参见 4. 3. 3 小 节 。 

当 NameNode 宕 机 时 ,可 以 利用 SecondaryNameNode 节点 中 的 数据 恢复 NameNode 
的 数据 ,或 直接 使 用 SecondaryNameNode 代替 NameNode, 恢 复 集群 的 正常 运行 。 注 意 : 
由 于 Secondary NameNode 仅 保留 了 执行 检查 点 时 的 fsimage 数据 ,所 以 有 可 能 会 丢失 部 分 
数据 。 


063 Bah pitch $840 


在 Hadoop 新 版 本 中 ,引入 了 一 种 新 的 节点 BackupNode. BackupNode 不 仅 执行 了 检查 
点 的 功能 ,还 在 内 存 中 保存 了 一 份 与 NameNode 一 致 的 元 数据 。BackupNode 只 需要 把 从 
NameNode 中 复制 过 来 的 Edits 文件 应 用 到 内 存 元 数据 上 , 即 可 获得 最 新 的 元 数据 信息 。 
但 是 ,集群 中 只 能 有 一 个 BackupNode, 并 且 NameNode 出 现 故障 时 ,BackupNode 不 能 自动 
顶替 ,需要 手工 方式 启动 NameNode。 


464 Hato ex tp HIF5 的 高 可 用 性 实现 原理 


在 Hadoop 2.0.0 之 前 ,NameNode(NN) 在 HDFS 集群 中 存在 单 点 故障 (single point 
failure) ,每 一 个 集群 中 只 存在 一 个 NameNode, 如 果 NN 所 在 的 机 器 出 现 了 故障 ,那么 将 导 
致 整个 集群 无 法 利用 ,直到 NN 重启 或 者 在 另 一 台 主 机 上 启动 NN 守护 线程 。 

Hadoop 2. X 引入 了 全 新 的 架构 .在 该 架构 下 ,HDFS 的 高 可 用 性 将 通过 在 同一 个 集群 
中 运行 两 个 NN 来 解决 因 NN 失效 或 系统 维护 而 引起 的 集群 无 法 利用 的 问题 ,这 种 方案 允 
许 在 机 器 崩溃 或 者 机 器 维护 时 快速 地 启用 一 个 新 的 NN 来 恢复 故障 。 

在 典型 的 高 可 用 集群 中 ,通常 有 两 台 不 同 的 机 器 充当 NN。 在 任何 时 间 , 只 有 一 台 机 器 
处 于 Active 状态 ; 另 一 台 机 器 是 处 于 Standby RÆ. Active NN 负责 集群 中 所 有 客户 端的 
操作 ;而 Standby NN 主要 用 于 备用 , 它 主 要 维持 足够 的 状态 ,如 果 必 要 ,可 以 提供 快速 的 故 
障 恢复 。 

为 了 让 Standby NN 的 状态 和 Active NN 保持 同步 , 即 元 数据 保持 一 致 ,它们 都 将 会 和 
JournalNodes 守护 进程 通信 。 当 Active NN 执行 任何 有 关 命 名 空间 的 修改 时 , 它 需 要 持久 
化 到 一 半 以 上 的 JournalNodes 上 (通过 edits log 持久 化 存储 ) ,而 Standby NN 负责 观察 
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edits log 的 变化 , 它 能 够 从 JNs 中 读 取 edits 信息 ,并 更 新 其 内 部 的 命名 空间 。 一 旦 Active = 
NN 出 现 故 障 ,Standby NN 将 会 保证 从 JNs 中 读 出 全 部 的 Edits, 并 切换 成 Active 状态 。 
Standby NN 读 取 全 部 的 edits 可 确保 发 生 故 障 转移 之 前 ,是 和 Active NN 拥有 完全 同步 的 
命名 空间 状态 。 

为 了 提供 快速 的 故障 恢复 , Standby NN 也 需要 保存 集群 中 各 个 文件 块 的 存储 位 置 。 
为 了 实现 这 个 功能 ,集群 中 所 有 的 DataNode 将 配置 好 Active NN 和 Standby NN 的 位 置 ， 
并 向 它们 发 送 块 文件 所 在 的 位 置 及 心跳 ,如 图 4-14 所 示 。 
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图 4-14 Hadoop 2.2.0  HDFS 的 高 可 用 性 实现 原理 


在 任何 时 候 , 集 群 中 只 有 一 个 NN 处 于 Active 状态 是 极其 重要 的 。 否则 ,在 两 个 
Active NN 的 状态 下 命名 空间 的 状态 将 会 出 现 分 歧 , 这 将 会 导致 数据 的 丢失 及 其 他 不 正确 
的 结果 。 为 了 保证 这 种 情况 不 会 发 生 , 在 任何 时 间 ,JNs 只 允许 一 个 NN 充当 writer。 在 故 
障 恢复 期 间 ,要 变 成 Active 状态 的 NN 将 取得 writer 的 角色 ,并 阻止 另外 一 个 NN 继续 处 
于 Active KA, 

为 了 部 署 HA 集群 ,需要 准备 以 下 事项 。 

(1) 运行 Active NN 和 Standby NN 的 机 器 需要 相同 的 硬件 配置 。 

(2) JournalNode 守护 进程 相对 来 说 比较 轻 量 ,所 以 这 些 守护 进程 可 以 和 其 他 守护 线程 
(比如 NN. YARN ResourceManager) 运 行 在 同一 台 机 器 上 。 在 一 个 集群 中 ,最 少 要 运行 3 个 
JN 守护 进程 ,这 将 使 得 系统 有 一 定 的 容错 能 力 。 当 然 ,也 可 以 运行 3 个 以 上 的 JN, 但 是 为 
了 增加 系统 的 容错 能 力 ,应 该 运行 奇数 个 JN(3、5、7 等 )。 当 运行 N 个 JN 时 ,系统 将 最 多 容 
忍 CN 一 1)/2 个 JN 崩溃 。 

在 HA 集群 中 ,Standby NN 也 执行 命名 空间 状态 的 Checkpoints, 所 以 不 必要 运行 
Secondary NN,CheckpointNode 和 BackupNode; 事 实 上 ,运行 这 些 守 护 进程 是 错误 的 。 
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1 当前 HDFS 架构 和 功能 概述 

Hadoop 2. X 以 前 .整个 集群 中 只 有 一 个 NameNode 和 一 个 命名 空间 。NameNode 中 
命名 空间 以 层次 结构 存储 文件 名 与 BlockID 的 对 应 关系 、BlockID 与 具体 Block 位 置 的 对 应 
关系 。 这 个 单独 的 NameNode 管理 许多 的 DataNode, DataNode 中 分 布 各 个 数据 块 ,每 个 
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DataNode 会 周期 性 地 向 NameNode 传递 心跳 信息 (HeartBeat) ,报告 节点 状态 及 Block 分 
布 信息 ,Block 是 存储 信息 的 最 小 单元 ,通常 第 一 个 文件 存储 在 一 个 或 多 个 Block H , Block 
默认 大 小 为 64MB。 
2 单个 NameNode 的 HDFS 架构 的 局 限 性 
由 于 NameNode 在 内 存 中 存储 着 所 有 的 元 数据 ,因此 ,每 个 NameNode 所 能 存储 的 对 
象 (文件 十 块 ) 的 数目 受到 NameNode 所 在 的 JVM 的 heapsize 限制 。 比 如 50GB 的 Heap 
能 够 存储 20 亿 个 对 象 ,这 20 亿 个 对 象 支持 4 000 个 DataNode,12PB 的 存储 (假设 文件 平均 
大 小 为 40MB). 
随 着 数据 的 飞速 增长 ,存储 的 需求 也 随 之 增长 。 单 个 DataNode 从 4T 增长 到 36T, 集 
群 的 尺寸 增长 到 8 000 个 DataNode。 存 储 的 需求 从 12PB 增长 到 大 于 100PB。 
局 限 性 如 下 所 示 。 
。 集群 的 可 用 性 : 集群 中 只 有 一 个 NameNode, 无 疑 这 个 NameNode 将 成 为 集群 可 用 
性 的 最 大 隐患 ,NameNode 一 旦 出 现 问 题 , 集 群 将 不 能 运行 。 
。 性 能 问题 : 由 于 集群 中 只 有 一 个 NameNode, 该 节点 的 吞吐 量 成 为 整个 集群 的 最 大 
限制 。 
。 隔离 问题 : 由 于 集群 中 仅 有 一 个 NameNode, 不 能 隔离 各 个 程序 ,因此 HDFS 上 的 
一 个 实验 性 程序 可 能 会 影响 整个 集群 中 正在 运行 的 其 他 程序 。 这 就 需要 集群 中 有 
不 同 的 命名 空间 来 隔离 不 同 的 应 用 程序 ,不 同 的 应 用 程序 才 会 不 相互 影响 。 
。 命名 空间 和 块 管理 的 紧密 耦合 : 当前 在 NameNode 中 的 命名 空间 和 块 管理 组 合 的 
紧密 耦合 关系 会 导致 如 果 想 要 实现 另外 一 套 NameNode 方案 比较 困难 ,而 且 也 限制 
了 其 他 想 要 直接 使 用 块 存储 的 应 用 。 


3. 为 什么 纵向 扩展 目前 的 NameNode 不 可 行 

比如 将 NameNode 的 Heap 空间 扩大 到 512GB。 

这 样 纵向 扩展 带 来 的 第 一 个 问题 就 是 启动 问题 ,启动 花费 的 时 间 太 长 。 当 前 具有 
50GB Heap 的 NameNode 的 HDFS, ,启动 一 次 需要 30 分 钟 到 2 小 时 ,那么 512GB 的 需要 
BAY 

第 二 个 问题 就 是 NameNode 在 Full GC 时 ,如 果 发 生 错误 将 会 导致 整个 集群 宕 机 。 

第 三 个 问题 是 对 大 JVM Heap 进行 调试 比较 困难 。 优 化 NameNode 的 内 存 使 用 性 价 
比比 较 低 。 


4 为 什么 要 引入 Federation 

引入 Federation 的 最 主要 原因 是 简单 ,其 简单 性 是 与 真正 的 分 布 式 NameNode 相 比 而 
言 的 。Federation 能 够 快速 地 解决 大 部 分 单 NameNode HDFS 的 问题 。 

Federation 是 简单 鲁 棒 的 设计 .由 于 联盟 中 各 个 NameNode 之 间 是 相互 独立 的 。 
Federation 整个 核心 设计 实现 大 概 用 了 3 个 半月 。 大 部 分 改变 是 在 DataNode Config 和 
Tools. iij NameNode 本 身 的 改动 非常 少 ,这 样 NameNode 原先 的 鲁 棒 性 不 会 受到 影响 , 比 
真正 的 分 布 式 的 NameNode 简单 ,虽然 这 种 实现 的 扩展 性 比 起 真正 的 分 布 式 的 NameNode 
要 小 些 , 但 是 可 以 迅速 满足 需求 。 另 外 一 个 原因 是 Federation 良好 的 向 后 兼容 性 ,已 有 的 单 
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NameNode 的 部 署 配置 不 需要 任何 改变 就 可 以 继续 工作 。 

因此 Federation( 联 盟 ) 是 未 来 可 选 的 方案 之 一 。 在 Federation 架构 中 可 以 无 颖 的 支持 
目前 单 NameNode 架构 中 的 配置 。 

5. HDFS Federation 架构 

HDFS Federation 使 用 了 多 个 独立 的 NameNode/NameSpace 来 使 得 HDFS 的 命名 服 
务 能 够 水 平 扩展 ,如 图 4-15 所 示 。 在 HDFS Federation 中 的 NameNode 之 间 是 联盟 关系 ， 
它们 之 间 相 互 独立 且 不 需要 相互 协调 。HDFS Federation 中 的 NameNode 提供 了 命名 空间 
和 块 管理 功能 。HDFS Federation 中 的 DataNode 被 所 有 的 NameNode 用 作 公 共存 储 块 的 
地 方 。 每 一 个 DataNode 都 会 向 所 在 集群 中 所 有 的 NameNode 注册 ,并 且 会 周期 性 地 发 送 
心跳 和 块 信息 报告 ,同时 处 理 来 自 NameNode 的 指令 。 


i 
3|| | NNI | | NNk | | NN-n | 
JE E ij] | 
E 1 li bog | 
E 1 1 1 
zZ | b. 4 1 | 1 

vd bed be] | 

! io! 1 1 1 
1 1 1 1 1 1 
1 T T+ 1 
个 | 1 rd 1 

1 Pooll || | Pool k | | (| Poon ; 
l 1 E 1 

|| L- ++ Block Pools ETT oli | 

所 

$ 

2 | Datanode 1 | Datanode 2 Datanode m 

nod ng nog 

u Common Storage 


4-15 Federation 架构 


1) Federation HDFS 与 以 前 HDFS 的 比较 

以 前 HDFS 只 有 一 个 命名 空间 (NameSpace) , 它 使 用 全 部 的 块 。 而 Federation HDFS 
中 有 多 个 独立 的 命名 空间 (NameSpace) ,并 且 每 一 个 命名 空间 使 用 一 个 块 池 (Blockpool) 。 

以 前 HDFS 中 只 有 一 组 块 。 而 Federation HDFS 中 有 多 组 独立 的 块 。 块 池 (Blockpool) 
就 是 属于 同一 个 命名 空间 的 一 组 块 。 

以 前 HDFS 由 一 个 NameNode 和 一 组 DataNode 组 成 。 而 Federation HDFS 由 多 个 
NameNode 和 一 组 DataNode 组 成 ,每 一 个 DataNode 会 为 多 个 块 池 (block pool) 存 储 块 。 

2) BlockPool( 块 池 ) 

所 谓 BlockPool( 块 池 ) 就 是 属于 单个 命名 空间 的 一 组 Block( 块 )。 每 一 个 DataNode 为 
所 有 的 BlockPool 存储 块 。DataNode 是 一 个 物理 概念 ,而 BlockPool 是 一 个 重新 将 Block 
划分 的 逻辑 概念 。 同 一 个 DataNode 中 可 以 存储 属于 多 个 BlockPool 的 多 个 块 。BlockPool 
允许 一 个 命名 空间 在 不 通知 其 他 命名 空间 的 情况 下 为 一 个 新 的 Block 创建 Block ID. [Al 
时 ,一 个 NameNode 失效 不 会 影响 其 下 的 DataNode 为 其 他 NameNode 的 服务 。 

当 DataNode 与 NameNode 建立 联系 并 开始 会 话 后 自动 建立 BlockPool。 每 个 Block 
都 有 一 个 唯一 的 标识 ,这 个 标识 称 为 扩展 的 块 ID(Extended BlockID) =BlockID+ BlockID. 
这 个 扩展 的 块 ID 在 HDFS 集群 之 间 都 是 唯一 的 ,这 为 以 后 集群 归并 创造 了 条 件 。 
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DataNode 中 的 数据 结构 都 通过 块 池 ID ( BlockPoolID) ¥ 5|. HJ. DataNode 中 的 
BlockMap, Storage 等 都 通过 BPID 索引 。 

在 HDFS 中 ,所 有 的 更 新 、 回 滚 都 是 以 NameNode 和 BlockPool 为 单元 发 生 的 。 即 同 
— HDFS Federation 中 不 同 的 NameNode/BlockPool 之 间 没 有 什么 关系 。 

Hadoop 0. 23 版 本 中 Block Pool 的 管理 功能 依然 放 在 了 NameNode 中 ,将 来 的 版 本 中 
将 Block Pool 的 管理 功能 移动 到 新 的 功能 节点 中 。 

3) DataNode 的 改进 

在 DataNode 中 ,对 应 于 每 个 NameNode 都 有 一 条 相应 的 线程 。 每 个 DataNode 去 每 一 
个 NameNode 注册 ,并且 周期 性 地 给 所 有 的 NameNode 发 送 心跳 及 DataNode 的 使 用 报告 。 
DataNode 还 给 NameNode 发 送 其 所 在 的 BlockPool 的 BlockReport( 块 报告 )。 由 于 有 多 个 
NameNode 同时 存在 ,因此 任何 一 个 NameNode 都 可 以 随时 动态 加 入 .删除 和 更 新 。 

4) Federation 中 其 他 方面 的 改进 

。 提供 了 工具 ,对 NameNode 的 初始 化 和 退役 的 监控 和 管理 。 
* 允许 在 DataNode 级 别 或 者 BlockPool 级 别 的 负载 均衡 。 

。 DataNode 的 后 台 守 护 进程 ,为 Federation 所 做 的 磁盘 和 目录 扫描 。 

* 提供 了 显示 NameNode 的 BlockPool 的 使 用 状态 的 Web UL 

。 还 提供 了 对 全 部 集群 存储 使 用 状态 的 UI 展示 。 

*。 在 Web UI 中 列 出 了 所 有 的 NameNode 及 其 细节 ,如 NameNode-BlockPoolID 和 存 

储 的 使 用 状态 ,失去 联系 的 、 活 的 和 死 的 块 信息 。 还 有 前 往 各 个 NameNode Web UI 
的 链接 。 

。 DataNode 退役 状态 的 展示 。 

5) 多 命名 空间 的 管理 问题 

在 一 个 集群 中 需要 唯一 的 命名 空间 还 是 多 个 命名 空间 ,核心 问题 是 命名 空间 中 数据 的 
共享 和 访问 问题 。 使 用 全 局 唯一 的 命名 空间 是 解决 数据 共享 和 访问 的 一 种 方法 。 在 多 命名 
空间 下 ,还 可 以 使 用 Client Side Mount Table 方式 做 到 数据 共享 和 访问 。 

如 图 4-16 所 示 , 每 个 深 色 三 角形 代表 一 个 独立 的 命名 空间 ,上 面 浅 色 的 三 角形 代表 从 
客户 角度 去 访问 下 面 的 子 命 名 空间 。 各 个 深 色 的 命名 空间 挂 载 (Mount) 到 浅 色 的 表 中 , 客 
户 可 以 通过 不 同 的 挂 载 点 来 访问 不 同 的 命名 空间 .这 就 如 同 在 Linux 系统 中 访问 不 同 挂 载 
点 一 样 。 这 就 是 HDFS Federation 中 命名 空间 管理 的 基本 原理 : 将 各 个 命名 空间 挂 载 到 全 
局 mount-table 中 ,就 可 以 将 数据 挂 到 全 局 共享 ;同样 的 命名 空间 挂 载 到 个 人 的 mount-table 
中 ,这 就 成 为 应 用 程序 可 见 的 命名 空间 视图 。 

6) Namespace Volume( 命 名 空间 卷 ) 

一 个 NameSpace 和 它 的 BlockPool 合 在 一 起 
称 作 NameSpace Volume。NameSpace Volume 是 
一 个 独立 完整 的 管理 单元 。 当 一 个 NameNode/ 
NameSpace 被 删除 ,与 之 相对 应 的 BlockPool 也 
被 删除 。 在 升级 时 每 一 个 NameSpace Volume 
也 会 整体 作为 一 个 单元 。 

7) ClusterID 图 4-16 Federation 中 命名 空间 
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在 HDFS Federation 中 添加 了 ClusterID 用 来 区 分 集群 中 的 每 个 节点 。 当 格式 化 一 个 
NameNode 时 ,这 个 ClusterID 会 自动 生成 或 者 手动 提供 。 在 格式 化 同一 集群 中 其 他 
NameNode 时 会 用 到 这 个 ClusterID。 

8) HDFS Federation 对 旧版 本 的 HDFS 是 兼容 的 

这 种 兼容 性 可 以 使 得 已 有 的 NameNode 配置 不 需要 任何 改变 继续 工作 。 


4.7 HDFS 中 小 文件 存储 问题 


HDFS 是 针对 大 文件 进行 设计 的 ,在 处 理 大 文件 时 能 够 体现 出 它 的 性 能 优势 ,然而 ,在 
许多 应 用 中 都 存在 着 许多 小 文件 ,如 图 片 文件 .Office 文档 等 ,这 些 文件 一 般 都 小 于 HDFS 
数据 块 的 大 小 ,在 小 文件 的 存储 过 程 中 ,会 面临 以 下 问题 。 


1 文件 系统 的 效率 低下 

系统 需要 为 每 一 个 小 文件 保存 元 数据 信息 ,并 且 由 于 存在 多 个 副本 ,需要 为 其 分 配 多 个 
存储 节点 。 大 部 分 的 时 间 都 花费 在 系统 开销 上 ,真正 用 于 传输 文件 内 容 的 时 间 所 占 比 例 非 
常 小 ,导致 小 文件 数目 过 多 时 存储 速度 变 慢 。 


2 集群 内 部 节点 内 存 占 用 率 过 高 

原因 在 于 不 论 是 命名 服务 器 还 是 数据 服务 器 ,都 需要 保存 小 文件 的 元 数据 信息 ,在 
HDFS 的 实现 中 ,这 部 分 信息 是 常 驻 内 存 的 ,因而 当 文件 数目 变 得 庞大 时 ,所 占用 的 内 存 也 
急剧 增加 。 如 果 将 这 些 文件 元 数据 信息 保存 在 磁盘 中 ,那么 可 以 预见 ,由 于 需要 频繁 地 进行 
磁盘 1/O 访问 ,访问 性 能 将 急剧 下 降 。 


3. 浪费 大 量 的 存储 空间 

HDFS 采用 比较 大 的 数据 块 ,存储 数据 时 数据 块 是 最 小 的 存储 单元 , 当 文 件 远 小 于 数据 
块 大 小 时 ,将 会 有 大 量 的 存储 空间 被 浪费 。 

Yahoo 内 部 有 一 个 生产 集群 ,统计 下 来 有 57 000 000 个 小 于 128MB 块 大 小 的 文件 ,这 
些小 文件 消耗 了 95% 的 命名 空间 ,占用 了 30% 的 存储 空间 。NameNode 的 压力 常常 是 因为 
有 海量 的 小 文件 存在 ,如 果 没有 这 些小 文件 存在 , NameNode 内 存 还 没 撑 爆 ,估计 存储 空间 
就 先 爆 了 。 

为 了 解决 这 些 面临 的 问题 ,Hadoop 对 HDFS 进行 了 改善 ,同时 一 些 专家 学 者 也 提出 了 
一 些 解决 方案 ,改善 了 小 文件 的 存储 问题 。 


az 文件 归档 技术 


Hadoop 从 0.18.0 版 本 开始 引入 了 Archive, 系 统 可 以 运行 MapReduce 任务 把 多 个 小 
文件 合并 成 为 一 个 归档 文件 。 归 档 文档 包含 元 数据 和 数据 文件 。 元 数据 包含 两 层 索 引文 
件 : _masterIndex 和 _index, 索 引 部 分 记录 了 原 有 的 目录 结构 和 文件 状态 。HAR 文件 格式 
如 图 4-17 所 示 ,采用 归档 文件 处 理 小 文件 的 方法 确实 降低 了 NameNode 的 内 存 使 用 率 , 但 
是 在 读 取 文件 方面 ,与 直接 从 HDFS 中 读 取 数据 相 比 效 率 明 显 下 降 。 同 时 ,一 个 归档 文件 
一 旦 创建 将 不 可 更 改 , 将 不 允许 在 此 基础 上 进行 增加 或 删除 文件 等 操作 。 

Archive 命令 的 格式 为 : 


file-n 


 masterIndex 


. Index 


packl.har part-0 


03.car 02.caj 06.caj … 


part-0 
04.car hadoop … 


MP 


4-17 HAR 文件 结构 


Hadoop archive - archiveName test.har -p /A/B/C/D/ E1/Fl E2/F2 /A/G/ 


其 中 ,-archiveName test. har 为 目标 文件 名 ,-p /A/B/C/D/ 为 源 文件 的 父 目 录 ,El/F1l 
和 E2/F2 为 源 文件 ( 夹 ) ,文件 ( 夹 ) 可 以 有 多 个 , 源 文件 其 实 是 : 父 目 录 路 径 十 相对 子路 径 ， 
最 后 一 个 参数 就 是 目录 文件 夹 dest path, 所 以 最 终结 果 的 路 径 是 dest path 十 achiveName。 
命令 及 执行 结果 如 下 : 


hadoop@ master:~Shadoop fs -1s /user 


Found 10 items 


-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
drwxr-xr-x 

=w= 
-rw-r--r-- 


在 HDFS 中 创建 archiveDir 目录 。 


3 hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 
- hadoop supergroup 
3 hadoop supergroup 
3 hadoop supergroup 


451959 2014- 09- 23 12:58 /user/01.caj 
393536 2014- 09- 23 12:58 /user/02.caj 
1470785 2014- 09- 23 12:58 /user/03.caj 
133124 2014- 09- 23 12:58 /user/04.caj 
1572394 2014- 09- 23 12:58 /user/05.caj 
358683 2014- 09- 23 12:58 /user/06.caj 
79857 2014- 09- 23 12:58 /user/07.caj 

0 2014- 09- 14 23:41 /user/hadoop 

44 2014- 09- 14 13:13 /user/input.txt 
430744 2014- 09- 16 17:24 /user/testl.txt 


hadoop@ master:~Shadoop fs -mkdir archiveDir 
将 /user 目录 下 的 所 有 *. caj 文件 及 hadoop 文件 夹 下 的 文件 添加 到 归档 。 


hadoop@ master:~$hadoop archive - archiveName packl.har -p /user/* .caj hadoop archiveDir 
hadoop@ master:~Shadoop fs -lsr har:///user/hadoop/archiveDir/packl.har 


-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
-rw-r--r-- 
drwxr-xr-x 

-rw-r--r-- 


3 hadoop supergroup 


3 hadoop supergroup 


3 hadoop supergroup 


3 hadoop supergroup 


—hadoop supergroup 


3 hadoop supergroup 


1470785 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/03.caj 

393536 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/02.caj 

358683 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/06.caj 

133124 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/04.caj 

0 2014- 09- 23 14:14 /user/hadoop/ 
archiveDir/packl.har/hadoop 

0 2014- 09- 14 19:08 /user/hadoop/ 
archiveDir/packl.har/hadoop/empty 


-rw-r--r-- 3 hadoop supergroup 8 2014- 09- 14 18:04 /user/hadoop/ bed 
archiveDir/packl.har/hadoop/cc.txt 
-rw-r--r-- 3 hadoop supergroup 1166 2014- 09- 14 18:03 /user/hadoop/ 
archiveDir/packl.har/hadoop/start- all.sh 
drwxr-xr-x —hadoop supergroup 0 2014- 09- 14 17:52 /user/hadoop/ 
archiveDir/packl.har/hadoop/dir 
drwxr- xr- x —hadoop supergroup 0 2014- 09- 14 17:53 /user/hadoop/ 
archiveDir/packl.har/hadoop/dir3 
drwxr-xr-x  —hadoop supergroup 0 2014- 09- 14 17:51 /user/hadoop/ 
archiveDir/packl.har/hadoop/dir2 
drwxr-xr-x —hadoop supergroup 0 2014- 09- 14 17:51 /user/hadoop/ 
archiveDir/packl.har/hadoop/dirl 
drwxr-xr-x  —hadoop supergroup 0 2014- 09- 23 14:16 /user/hadoop/ 
archiveDir/packl.har/hadoop/archiveDir 
-rw-r--r-- 3 hadoop supergroup 451959 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/01.caj 
-rw-r--r-- 3 hadoop supergroup 1572394 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/05.caj 
-rw-r--r-- 3 hadoop supergroup 79857 2014- 09- 23 12:58 /user/hadoop/ 
archiveDir/packl.har/07.caj 
hadoop@ master: -S$hadoop fs -cat har:///user/hadoop/archiveDir/packl.har/ 
hadoop/cc.txt 


查看 archive 中 的 cc. txt 文件 的 命令 。 

归档 文件 与 原文 件 分 别 使 用 不 同 的 Block ,并 没有 共用 Block。 当 归档 文件 较 多 时 ,性 
能 并 不 明显 (典型 的 HDFS 复制 )。 小 文件 归档 以 后 ,需要 手工 删除 原始 文件 ,否则 仍 将 占 
用 存储 空间 ;HAR 文件 不 支持 压缩 ,因此 会 占用 较 多 磁盘 空间 。 

下 面 的 代码 显示 packl. har 文件 中 /hadoop 路 径 下 的 文件 : 


import java.net.URI; 

import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.FileStatus; 
import org.apache.hadoop.fs.HarFileSystem; 
import org.apache.hadoop.fs.Path; 


public class HarTest ( 
public static void main(String[] args) throws Exception ( 
Configuration conf- new Configuration (); 
conf.set ("fs.default.name", "hdfs://192.168.1.10:9000") ; 
HarFileSystem fs- new HarFileSystem(); 
fs.initialize (new URI ("har://///192.168.1.10/user/hadoop/archiveDir/ 
packl.har"), conf); 
FileStatus[] listStatus- fs.listStatus (new Path ("/user/hadoop/ 
archiveDir/packl.har/hadoop")); 
for (FileStatus fileStatus: listStatus) ( 
System.out.println(fileStatus.getPath().toString()); 
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SequenceFile 文件 是 Hadoop 用 来 存储 二 进 制 形式 的 key-value 而 设计 的 一 种 平面 文 
件 (Flat File) 。 目 前 ,有 学 者 在 该 文件 的 基础 之 上 提出 一 些 HDFS 中 小 文件 存储 的 解决 方 
案 , 他 们 的 基本 思路 就 是 将 小 文件 进行 合并 成 一 个 大 文件 ,用 文件 名 称 作 为 关键 字 , 文 件 内 
容 作 为 值 。 可 以 将 一 些小 文件 合并 后 写 和 一 个 单独 的 序列 文件 中 去 ,完成 后 可 以 直接 使 用 
这 个 文件 。 序 列 文件 是 可 以 被 分 割 的 ,利用 MapReduce 可 以 将 它们 分 成 块 ,这 些 块 可 以 被 
独立 处 理 。SequenceFile 序列 文件 支持 数据 压缩 和 文件 分 割 , 为 MapReduce 任务 的 本 地 数 
据 操作 提供 了 良好 的 支撑 。 但 SequenceFile 有 它 本 身 的 缺陷 ,在 将 小 文件 合并 为 大 文件 后 ， 
没有 完善 小 文件 到 大 文件 的 映射 ,使 得 检索 小 文件 的 过 程 效率 低下 。 

SequenceFile 文件 由 Header, Record 和 同步 标志 3 种 数据 组 成 ,可 以 支持 无 压缩 ,记录 不 
缩 \ 数 据 块 压缩 3 种 格式 。Header 中 主要 包括 版 本 信息 、keyClassName、 valueClassName、 
压缩 标志 等 ,同步 标志 主要 是 为 了 分 割 Header 和 Record。 每 个 Record 的 关键 内 容 是 一 个 
key-value 数据 对 。 

用 SequenceFile 解决 小 文件 问题 的 关键 点 是 利用 它 的 key-value 数据 对 的 存储 能 力 , 即 
将 每 个 小 文件 的 关键 点 是 利用 每 个 小 文件 名 作为 key, 将 文件 的 内 容 作 为 value, 这 样 ,多 个 
小 文件 可 以 存储 在 一 个 SequenceFile 文件 。SequenceFile 是 可 以 分 割 的 ,因此 MapReduce 
程序 可 以 像 处 理 其 他 文件 一 样 将 一 个 超大 SequenceFile 分 割 并 行 处 理 ,SequenceFile 还 支 
持 数据 压缩 ,利用 该 功能 可 以 显著 提高 存储 效率 。 

与 SequenceFile 相关 的 一 个 数据 结构 是 MapFile, 这 是 一 种 排序 后 的 SequenceFile, 它 
增加 了 将 key 进行 排序 与 查 排 的 能 力 , 因 此 可 根据 key 值 快速 地 查找 到 对 应 的 Record。 它 
拥有 较 高 的 检索 效率 ,但 会 占用 更 多 的 内 存 。 


47.3 ConbineAlelmautFomet 


Hadoop 提供 了 一 种 CombineFileInputFormat 类 , 它 可 以 将 多 个 文件 打包 到 一 个 分 片 
中 交 给 一 个 Map 任务 处 理 ,而 且 它 还 有 拓扑 感知 能 力 , 即 根据 文件 的 网 络 拓扑 位 置 选择 相 
近 的 文件 打包 到 一 个 分 片 中 ,从 而 提高 效率 。CombineFileInputFormat 是 一 个 抽象 类 , 开 
发 者 需要 对 该 类 的 一 些 接口 进行 具体 实现 ,才能 完成 完整 的 逻辑 。 

使 用 CombineFileInputFormat 可 以 提高 MapReduce 作业 的 运行 速度 ,但 是 并 不 能 减 
少 文件 的 数量 ,因此 对 NameNode 的 运行 效率 没有 任何 改善 。 而 且 MapReduce 作业 仍然 
需要 在 大 量 小 文件 中 进行 寻 址 和 数据 传输 ,因此 仍然 存在 效率 问题 。 

除了 以 上 介绍 的 三 种 机 制 外 ,许多 学 者 也 提出 了 Hadoop 进行 小 文件 存储 的 方法 ,这 些 
方法 都 比较 关注 的 问题 有 两 点 。 

1 小 文件 合并 问题 

当 海量 的 小 文件 在 系统 中 进行 存储 时 ,这 些小 文件 的 元 数据 信息 将 占用 NameNode 的 
内 存 空间 ,对 其 造成 极 大 的 负载 ;同时 ,大 量 小 文件 的 存在 造成 了 对 NameNode 节点 频繁 的 
数据 读 写 ,每 次 读 写 文件 ,都 要 向 NameNode 节点 请 求 数据 分 配 和 路 径 等 信息 ,这 种 频繁 的 
交互 对 整个 HDFS 性 能 造成 严重 的 影响 。 


mam SERD > 
noo 
2 创建 小 文件 索引 问题 
当 小 文件 数量 非常 大 时 ,MapReduce 处 理 需要 做 更 多 的 任务 ,在 map 任务 完成 之 后 产 
生 大 量 的 中 间 数据 ,浪费 了 大 量 的 系统 资源 。 通 过 合并 小 文件 为 大 文件 可 以 解决 这 个 问题 ， 
在 合并 小 文件 之 后 ,为 了 高 效 的 检索 小 文件 ,需要 为 其 创建 相应 的 索引 。 
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学 习 Hadoop 的 HDFS 以 后 ,已 经 初步 领略 了 Hadoop 的 强大 ,其 实 Hadoop 还 有 另 一 
项 强大 的 功能 一 一 MapReduce 计算 框架 ,这 是 一 个 应 用 于 大 规模 数据 集 的 并 行 编程 模型 ， 
它 非常 简单 ,容易 实现 , 且 易 于 扩展 。 用 它 编 写 程序 用 户 不 用 考虑 后 面 的 细节 ,MapReduce 
蔡 人 们 完成 了 分 布 式 存储 .工作 调度 .负载 均衡 .容错 处 理 、 网 络 通信 等 实现 起 来 比较 困难 的 
工作 ,程序 员 不 用 关心 这 些 , 只 需要 关心 自己 的 业务 即 可 。MapReduce 核心 思想 就 是 “分 而 
治之 ”, 它 把 大 规模 数据 集 分 成 一 个 个 小 的 数据 集 (splite) , 交 由 主 节点 管理 下 的 各 分 节点 共 
同 处 理 , 然 后 把 各 分 节点 的 中 间 结 果 进 行 整合 ,得 到 最 终结 果 。 

了 解 了 MapReduce 框架 的 概况 后 ,下 面 来 领略 一 下 它 的 风采 ,试用 Hadoop 提供 的 试 
验 程序 一 一 WordCount。WordCount 能 够 统计 一 批文 本 文件 中 各 单词 出 现 的 频次 ,展示 
MapReduce 思想 。 现 在 试用 一 下 WordCount, 体 会 一 下 MapReduce 的 精妙 之 处 。 

WordCount 首先 把 输入 的 文本 文件 按 单词 进行 切 分 ,然后 统计 每 一 个 单词 出 现 的 次 
数 , 并 把 结果 输出 。 

(1) 在 Master 服务 器 上 创建 一 个 input 目录 。 


hadoop@ master:~$mkdir input 
hadoop@ master:~$ed input 


(2) f£ input 目录 下 创建 两 个 文本 文件 : text]. txt, text2. txt. 

hadoopemaster:~/inputSecho "Hello Hadoop 

>bye Hadoop"» text1.txt 

hadoop@ master:~/input$echo "Hello world 

» Bye world" text2.txt 

AFE: 输入 textl. txt 内 容 时 第 一 个 Hadoop 后 有 一 个 软 回 车 ,输入 方法 是 在 
Hadoop 后 按 住 Ctrl 十 Enter 组 合 键 ,这 样 文件 中 就 有 一 个 回 车 了 。 在 text2. txt 中 第 一 个 
world 后 面 也 输入 一 个 软 回 车 。 内 容 输入 完成 后 ,输入 “ 回 车 ”完成 文件 输入 。 
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(3) 把 input 目录 复制 到 HDFS 文件 系统 中 ,并 命名 为 in 目录。 


hadoop@ master:~/input$ed ... 
hadoop@ master:~Shadoop fs -put input in 


(D 执行 WordCount 程序 。 


hadoop@ master:~$ed hadoop 
hadoop@ master:~/hadoopShadoop jar hadoop- examples- 1.2.1.jar wordcount in out 


至 此 ,任务 就 完成 了 ,下 面 来 看 一 下 执行 的 结果 。 


hadoop@ master:~/hadoop$hadoop fs -cat out/ * 
Bye 2 
Hadoop 2 
Hello 2 
world 2 


从 上 面 的 结果 可 以 看 出 ,WordCount 最 终 统计 的 结果 是 : Bye, Hadoop, Hello, word 都 
出 现 了 2 次 。 
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通过 上 面 的 操作 ,领略 到 MapReduce 的 强大 与 巧妙 , 它 统计 了 输入 的 文本 文件 中 各 单 
词 出 现 的 频次 ,MapReduce 是 怎样 完成 这 个 工作 的 呢 ? 下 面 就 来 自己 编写 一 个 WordCount 
程序 ,熟悉 Hadoop 程序 开发 的 过 程 ,进而 了 解 MapReduce 的 工作 原理 。 

在 4.5.1 小 节 和 4.5.2 小 节 中 ,已 经 把 Hadoop 的 Eclipse 插件 编译 完成 ,生成 了 一 个 
jar 文件 ,并 安装 到 了 Eclipse 中。 下面 利用 这 个 开发 环境 自己 编写 一 个 WordCount 程序 ， 
体会 一 下 MapReduce 的 强大 与 巧妙 。 

(1) 新 建 MapReduce 项 目 。 

在 Eclipse 中 , 单 击 菜单 File>New 一 Other, 选 择 Map/ Reduce Project, 建 立 MapReduce 项 
目 , 如 图 5-1 所 示 。 


Wizards 


[ype filter text 
VB Map/Reduce Project 


图 5-1 创建 一 个 Map/Reduce 项 目 


MapReduce Project. 
Create a MapReduce project. 


Project name: |(MyWordCeund 


I Use default location 


Location: [DAhadoop book\wk aa\MyWerdCount J[ Browse.. ] 


Hadoop MapReduce Library Installation Path 


/ Use default Hadoop Confqure Hadoop install directory... 
© Specify Hadoop library location | 


Bd | Nea» )( Frish _) comer 


5-2 输入 项 目 名 称 


(3) 选择 Libraries 选项 卡 , 单 击 Add External JARs 按钮 导入 Hadoop 目录 下 的 


hadoop-core-1. 2. 1. jar, hadoop-ant-1. 2. 1. jar、hadoop-tools-1. 2. 1. jar 及 Hadoop\lib 目录 
下 的 所 有 jar 包 , 如 图 5-3 所 示 。 


Java Settings 
Define the Java build settings. 


(9 Source | u Projects | BA Libraries | à> Order and Export, 
JARs and dass folders on the build path: 


doop -book\hadoop-12.1\ib - 
*\hadoep_book\hedoop-12.1\lib | 


D\hadoop_book\hadoop-1.2.1Vib 

加 commone-beanutis-17.0jar - D\nadoop_book\hadoop-1.21\\ib 

 commons-beanutis-core-1.8.0,jar - D:\hadocp book\hadoop-1.2.1\ib 

@ commons-cii- Dahadcop _bock\hadoop-1.2.1\lib 
doop.bock\hadoop-L2.1\ib 


图 commons-configur 

局 commons-daemo: 

E commons-digeste 

E commons-el-0 jer - DAhadoop_bookhadoop-12JVib 

E commons-httpclient-30.Ljar - D:\hadoop_book\hadoop-1.2.1\ib 
& commons-io-21 jer - DAhadoop bockWhadoop-121Nib. 


图 5-3 导入 外 部 jar 包 


(4) 新 建 类 , 单 击 菜单 File New Other. 3€ f£ Map/Reduce 下 的 Mapper, 如 图 5-4 
所 示 。 

(5) WordMapper 类 继承 了 MapReduceBase 类 ,通过 提供 map 方法 实现 了 mapper 接 
A. map 是 作业 的 核心 之 一 , 它 将 输入 键 值 对 (key-value pair) 映 射 到 一 组 中 间 格 式 的 键 值 
对 和 集合。 具体 地 说 ,在 WordMapper 类 中 , map 方法 接收 到 一 行文 本 ,然后 , 它 通 过 


Wizards 
[type filter text 


WB Var/Reduce Project 

> & General 

> Bos 

> & Git 

> B Java 

4 E Map/Reduce 
SØ Map/Reduce Project 
(Qj Mapper 

MapReduce Driver 


5-4 新 建 WordMapper 类 


StringTokenizer 以 空格 为 分 隔 符 将 一 行 切 分 为 若干 tokens, 之 后 ,输出 过 world,1 二 形式 的 
键 值 对 。 为 了 显示 数据 处 理 过 程 , 在 map 函数 开始 时 ,输出 二 key,value 二 键 值 对 ,此 时 key 
值 为 该 行 的 首 字符 相对 于 文本 文件 的 首 地 址 的 偏 移 量 ,value 为 该 行内 容 。 在 while 循环 体 
的 最 后 ,输出 map 函数 的 输出 值 , 即 二 world,1 二 。 


import java.io.IOException; 

import java.util.StringTokenizer; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.MapReduceBase; 
import org.apache.hadoop.mapred.Mapper; 

import org.apache.hadoop.mapred.OutputCollector; 
import org.apache.hadoop.mapred.Reporter; 


public class WordMapper extends MapReduceBase implements Mapper< LongWritable, Text, Text, 
IntWritable> { 
private final static IntWritable one- new IntWritable (1); 
private Text word- new Text (); 
public void map (LongWritable key, Text value, OutputCollector< Text, 
IntWritable» output, Reporter reporter) throws IOException { 
System.out.println ("map input key:"+ key.toString()+ "value:"+ value.toString()); 
String line-value.toString(); 
StringTokenizer tokenizer- new StringTokenizer (line); 
while (tokenizer.hasMoreTokens()) { 
word.set (tokenizer .nextToken ())7 
output .collect (word, one); 
System.out .println ("map output :< "+ word+ ", "+ one+ ">"); 
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(6) 用 步骤 (4) 类 似 的 方法 创建 类 WordReducer, 该 类 继承 了 MapReduceBase 类 ,通过 
提供 reduce 方法 实现 了 reducer 接口 reduce 方法 也 是 作业 的 核心 , 它 把 与 一 个 key 关联 
的 一 组 中 间 数 据 集 归 约 (reduce) 为 一 个 更 小 的 数据 集 。 具 体 地 说 ,在 WordReducer 类 中 ， 
reduce 方法 把 接收 到 的 迭代 器 中 的 键 值 对 的 值 相 加 ,得 到 这 个 单词 出 现 的 次 数 。 为 了 更 清 
楚 地 说 明 程序 运行 过 程 在 reduce 函数 的 while 循环 体 中 ,输出 了 reduce 函数 的 输入 值 ;在 
reduce 函数 最 后 ,输出 了 reduce 的 输出 值 。 


import java.io.IOException; 

import java.util.Iterator; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.MapReduceBase; 
import org.apache.hadoop.mapred.OutputCollector; 
import org.apache.hadoop.mapred.Reducer; 

import org.apache.hadoop.mapred.Reporter; 


public class WordReducer extends MapReduceBase implements Reducer« Text, 
IntWritable, Text, IntWritable> ( 
public void reduce (Text key, Iterator< IntWritable > values, OutputCollector< Text, 
IntWritable» output, Reporter reporter) throws IOException( 
int sum-0; 
while (values.hasNext()) { 
int temp=values.next () .get (); 
sum+ = temp; 
System.out.println("reduce input"+ key+ ", "+ temp); 
} 
output.collect (key, new IntWritable (sum)); 
System.out.println ("reduce key:"+ key.toString()+" value:"+ sum); 


} 


(7) 用 步骤 (4) 相 似 的 方法 创建 MapReduce Driver. Bl. MapReduce 驱动 类 ,MapReduce 5K 
动 类 主要 是 启动 MapReduce 作业 。 驱 动 类 命名 为 WordCount, 该 类 中 包括 main 函数 ,在 
这 里 设置 任务 的 一 些 参 数 : 通过 FileInputFormat、FileOutputFormat 分 别 设 定 任 务 的 输入 
和 输出 路 径 ,调用 JobClient. runJob(conf) 方 法 执行 任务 。 


import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapred.FileInputFormat; 
import org.apache.hadoop.mapred.FileOutputFormat; 
import org.apache.hadoop.mapred.JobClient; 

import org.apache.hadoop.mapred.JobConf; 

import org.apache.hadoop.mapred.TextInputFormat; 
import org.apache.hadoop.mapred.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class WordCount { 
public static void main(String[] args) throws Exception ( 
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JobConf conf- new JobConf (WordCount .class); ww 
String[] otherargs= new GenericOptionsParser (conf, args). 
getRemainingArgs(); 
System.out.println ("args0:"+ otherargs [0]) ; 
System.out.println ("args1:"+ otherargs [1])7 
if (otherargs .length!=2) { 
System.err.println("Usage: WordCount< in><out>"); 
System.exit (2); 
) 
conf.setJobName ("wordcount") ; 
conf.setOutputKeyClass (Text.class); 
conf.setOutputValueClass (IntWritable.class); 
conf.setMapperClass (WordMapper.class); 
conf.setCombinerClass (WordReducer.class); 
conf.setReducerClass (WordReducer.class); 
conf.setInputFormat (TextInputFormat.class); 
conf.setOutputFormat (TextOutputFormat .class) ; 
FileInputFormat.setInputPaths (conf, new Path (otherargs [0])); 
FileOutputFormat.setOutputPath (conf, new Path (otherargs[1])); 
JobClient.runJob (conf) ; 


) 


(8) 设置 运行 环境 参数 。 布 击 WordCount 文件 ,选择 Run as 一 Run Configuration... 3 
单 命令 ,打开 Run Configurations fà F1. 3€ f£ (x) = Arguments 选项 卡 ,输入 in out, Hid 
Apply 按钮 ,如 图 5-5 所 示 。 这 里 的 in 为 程序 输入 数据 的 HDFS 目录 ,out 程序 输出 数据 的 
HDFS 目录 。 


‘Create, manage, and run configurations 
Run a Java application 


WR) EH | Name Wordcount 2) 


[pe fiter text) | (@ aie engin A IRE] AG Classpath] Ey Source] A Emirorment| E Common) 

Bi JavaApolet EE ||| program arguments: 

[7] Java Application 
fT) CopyFileWithPrc 
T3] CreateFile (1) 
IT DeleteFile. 

回 DFSOperator 
TD GetDirMetaDate 
[3] GetFileMetadate 
国 HarTest 

国 HDFSMkdir 

[T HDFSRename. 


T) HDFSURL Rede. F 
B ReadFile Nord ecco 


I WordCount. @ Default: — (Siworkspace locMyWordCount) 
I WordCount (1) © Other: [ 


[7] WordCount (2) 
do Wri EE 


ma Maven Build 2 


———* 一 二 一 
Hier matched 19 of 22 tems [_ apy ] 


[mmm erm 


in ou 


5-5 设置 程序 运行 的 参数 
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— (9) 运行 WordCount 程序 。 布 击 WordCount 文件 ,选择 Run as-* Run on Hadoop 3 
单 命令 ,应 用 程序 在 Hadoop 上 运行 。 


14/09/30 08:14:35 WARN util.NativeCodeLoader: Unable to load native- hadoop library for your 
platform... using builtin- java classes where applicable 

14/09/30 08:14:35 WARN snappy.LoadSnappy: Snappy native library not loaded 
14/09/30 08:14:35 INFO mapred.FileInputFormat: Total input paths to process: 2 
14/09/30 08:14:35 INFO mapred.JobClient: Running job: job 10call315770733 0001 
14/09/30 08:14:35 INFO mapred.LocalJobRunner: Waiting for map tasks 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: Starting task: attempt local 
1315770733 0001 m 000000 0 

14/09/30 08:14:35 INFO mapred.Task: Using ResourceCalculatorPlugin: null 
14/09/30 08:14:35 INFO mapred. MapTask: Processing split: hdfs://192. 168.1. 10: 9000/user/ 
hadoop/in/textl.txt:0* 24 

14/09/30 08:14:35 INFO mapred.MapTask: numReduceTasks: 1 

14/09/30 08:14:35 INFO mapred.MapTask: io.sort.mb- 100 

14/09/30 08:14:35 INFO mapred.MapTask: data buffer- 79691776/99614720 

14/09/30 08:14:35 INFO mapred.MapTask: record buffer- 262144/327680 

14/09/30 08:14:35 INFO mapred.MapTask: Starting flush of map output 

map input key:0value:Hello Hadoop 

mapoutput :< Hello, 1» 

mapoutput :< Hadoop, 1» 

map input key:13value:Bye Hadoop 

mapoutput :< Bye, 1» 

mapoutput :< Hadoop, 1» 

reduce inputBye,l 

reduce key:Bye value:1 

reduce inputHadoop, 1 

reduce inputHadoop, 1 

reduce key:Hadoop value:2 

reduce inputHello,1 

reduce key:Hello value:1 

14/09/30 08:14:35 INFO mapred.MapTask: Finished spill 0 

14/09/30 08:14:35 INFO mapred.Task: Task:attempt 10call315770733 0001 m. 
000000 0 is done. And is in the process of commiting 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: hdfs://192.168.1.10:9000/user/hadoop/in/textl. 
txt:0* 24 

14/09/30 08:14:35 INFO mapred.Task: Task 'attempt 10cal1315770733 0001 m. 
000000 0' done 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: Finishing task: attempt local 
1315770733 0001 m 000000 0 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: Starting task: attempt local 
1315770733 0001 m 000001 0 

14/09/30 08:14:35 INFO mapred.Task: Using ResourceCalculatorPlugin: null 
14/09/30 08:14:35 INFO mapred. MapTask: Processing split: hdfs://192. 168. 1. 10: 9000/user/ 
hadoop/in/text2.txt:0+ 22 

14/09/30 08:14:35 INFO mapred.MapTask: numReduceTasks: 1 

14/09/30 08:14:35 INFO mapred.MapTask: io.sort.mb- 100 

14/09/30 08:14:35 INFO mapred.MapTask: data buffer- 79691776/99614720 

14/09/30 08:14:35 INFO mapred.MapTask: record buffer- 262144/327680 
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14/09/30 08:14:35 INFO mapred.MapTask: Starting flush of map output 

map input key:0value:Hello world 

mapoutput:« Hello, 1» 

mapoutput :< world, 1> 

map input key:12value:Bye world 

mapoutput :< Bye, 1» 

mapoutput :< world, 1> 

reduce inputBye,l 

reduce key:Bye value:l 

reduce inputHello,1 

reduce key:Hello value:1 

reduce inputworld,1 

reduce inputworld,1 

reduce key:world value:2 

14/09/30 08:14:35 INFO mapred.MapTask: Finished spill 0 

14/09/30 08:14:35 INFO mapred. Task: Task:attempt 10call315770733 0001 m 000001 0 is done. And is 
in the process of commiting 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: hdfs://192.168.1.10:9000/user/hadoop/in/text2. 
txt:0+ 22 

14/09/30 08:14:35 INFO mapred.Task: Task 'attempt 10call315770733 0001 m 000001 0' done. 
14/09/30 08:14:35 INFO mapred.LocalJobRunner: Finishing task: attempt local 
1315770733 0001 m 000001 0 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: Map task executor complete 

14/09/30 08:14:35 INFO mapred.Task: Using ResourceCalculatorPlugin: null 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: 

14/09/30 08:14:35 INFO mapred.Merger: Merging 2 sorted segments 

14/09/30 08:14:35 INFO mapred.Merger: Down to the last merge- pass, with 2 

segments left of total size: 73 bytes 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: 

reduce inputBye,l 

reduce inputBye,l 

reduce key:Bye value:2 

reduce inputHadoop, 2 

reduce key:Hadoop value:2 

reduce inputHello,1 

reduce inputHello,1 

reduce key:Hello value:2 

reduce inputworld,2 

reduce key:world value:2 

14/09/30 08:14:35 INFO mapred. Task: Task:attempt 10call315770733 0001 r 000000 0 is done. And is 
in the process of commiting 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: 

14/09/30 08:14:35 INFO mapred. Task: Task attempt 10call315770733 0001 r 000000 0 is allowed to 
commit now 

14/09/30 08:14:35 INFO mapred. FileOutputCommitter: Saved output of task 'attempt locall3 
15770733 0001 r 000000 0' to hdfs://192.168.1.10:9000/user/hadoop/out 

14/09/30 08:14:35 INFO mapred.LocalJobRunner: reduce» reduce 

14/09/30 08:14:35 INFO mapred.Task: Task 'attempt 10call315770733 0001 r 000000 0' done. 
14/09/30 08:14:36 INFO mapred.JobClient: map 100% reduce 100% 

14/09/30 08:14:36 INFO mapred.JobClient: Job complete: job 10call315770733 0001 
14/09/30 08:14:36 INFO mapred.JobClient: Counters: 20 
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14/09/30 08:14: 
14/09/30 08:1 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08:1. 
14/09/30 08:1. 
14/09/30 08: 


14/09/30 08: 
14/09/30 08: 
14/09/30 08: 
14/09/30 08: 


14/09/30 08:14: 


36 INFO mapred. JobClient: 
36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
136 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
136 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
136 INFO mapred.JobClient: 
136 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
36 INFO mapred.JobClient: 
36 INFO mapred. JobClient: 
:36 INFO mapred.JobClient: 


:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
:36 INFO mapred.JobClient: 
36 INFO mapred. JobClient: 


File Input Format Counters 
Bytes Read- 46 

File Output Format Counters 
Bytes Written- 31 
FileSystemCounters 

FILE BYTES READ-21776 
HDFS BYTES READ-116 

FILE BYTES WRITTEN= 234039 
HDFS BYTES WRITTEN-31 

Map- Reduce Framework 
Reduce input groups- 4 

Map output materialized bytes- 81 
Combine output records- 6 
Map input records- 4 

Reduce shuffle bytes- 0 
Reduce output records- 4 
Spilled Records- 12 

Map output bytes- 78 

Total committed heap usage (bytes)- 
482291712 

Map input bytes- 46 

Combine input records=8 
Map output records=8 
SPLIT RAW BYTES- 204 

Reduce input records- 6 


AEE. 运行 程序 前 请 先 查 看 一 下 ,程序 的 输出 目录 是 否 存在 , 若 已 经 存在 ,程序 会 出 


可 以 在 Eclipse 的 DFS location 处 删除 输出 目录 ,或 使 用 命令 删除 也 可 以 ,命令 为 : 


hadoop@ master:~/hadoop$hadoop fs - nmr /user/hadoop/out 


(10) 显示 程序 运行 结果 。 


hadoop@ master:~/hadoop$hadoop fs - cat /user/hadoop/out/* 


Bye 
Hadoop 
Hello 
world 


NNNN 
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5.1.2 小 节 介绍 了 WordCount 程序 编写 过 程 , 下 面 结合 程序 运行 过 程 中 控制 台 提 示 信 
息 , 对 WordCount 程序 处 理 过 程 进 行 介绍 ,如 图 5-6 所 示 。 

CD 程序 将 数据 拆 分 成 splits, 由 于 测试 用 的 数据 较 小 ,所 以 每 个 文件 就 是 一 个 split ,并 
将 文件 拆 分 成 二 key,value 二 键 值 对 ,这 里 的 key 是 包括 回 车 在 内 的 字符 数 的 偏 移 量 ,value 


值 为 一 行文 池 。 


(2) 将 分 割 好 的 二 key, value > && (Ei XJ 26 HH map() 方 法 进行 处 理 ,生成 新 的 键 值 


Xt: <world, 1>. 


(3) 得 到 mapO Fre Hi th lf] — world. 174 , Mapper 会 将 它们 按照 key 值 进行 排序 ,并 


HOR Nerd LTD 


119 


<hello,1> <bye, 1> 
hello world <0," hello world"> <world,1> <hello,1> 
bye world [可 > <13,"bye world"> [mand > <bye, 1> | Lmap 端 排序 <world,1> 
<world,1> <world,1> 
<hello,1> <bye, 1> 
hello hadoop <0," hello hadoop"> <hadoop,1> <hadoop,1> 
bye hadoop EED <14, " bye hadoop"> map0) «bye, 1> map 端 排序 <hadoop,1> 
<hadoop,1> <hello,1> 
分 割 结 果 map 输 出 排序 结果 
<bye, 1> <bye, 1> 
Mrd combine >| <hello,1> 
y <world,2> <bye, list(1,1)> <bye, 2> 
<world,1> 4 <hadoop,list(2)> duse <hadoop,2> 
m reduce 端 排序 > | chettoist(1,)> | CESO > | <hello2> 
ye, t "^ 
<hadoop, 1> pod a <world,list(2)> <world,2> 
*hadoop, 7 «world 2» 
hello, 17 x 
排序 结果 Combine 输 出 排序 结果 Reduce 输 出 


图 5-6 WordCount 处 理 过 程 


执行 Combine 过 程 ,将 key 值 相同 的 value 值 相 加 ,得 到 Mapper 的 最 终结 果 。 
(4) Reduce 先 对 从 Mapper 接收 的 数据 进行 排序 ,再 交 由 用 户 自 定义 的 reduce 方法 按 
相同 的 键 值 把 数值 累加 ,形成 新 的 键 值 对 。 


5.2 MapReduce 工作 原理 
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MapReduce 是 一 种 编程 模型 ,主要 用 于 大 规模 数据 处 理 ,使 程序 开发 人 员 不 需要 掌握 
分 布 式 程序 开发 技巧 的 情况 下 ,可 以 使 用 map() 和 reduce() 函 数 编写 出 分 布 式 运行 的 应 用 
程序 ,运行 在 分 布 式 系统 Hadoop 之 上 。 

MapReduce 模型 处 理 的 是 大 规模 数据 集 ,一 般 来 说 都 在 TB 级 及 以 上 规模 。 对 这 种 大 
规模 数据 集 ,MapReduce 采用 的 是 “分 而 治之 ”的 思想 ,把 待 处 理 的 数据 集 分 割 成 许多 小 的 
数据 块 , 小 数据 块 经 map0 〇 函数 并 行 处 理 后 输出 新 的 中 间 结 果 ,reduce() 函 数 把 多 任务 处 理 
后 的 中 间 结 果 汇 总 ,形成 最 终结 果 。 用 MapReduce 处 理 的 数据 集 必须 具有 以 下 特点 : 待 处 
理 的 数据 集 可 以 分 解 为 多 个 小 数据 集 , 并 且 每 个 小 数据 集 完全 可 以 并 行 地 进行 处 理 。 

MapReduce 框架 分 为 两 个 阶段 ,Map 阶段 和 Reduce 阶段 ,在 两 个 阶段 分 别 自 定义 map 
O PR BAM reduce() 函 数 ,这 两 个 函数 把 数据 从 一 个 数据 集 转换 为 男 一 个 数据 集 ,处 理 数 据 过 
程 如 图 5-7 所 示 。 

Map 阶段 ,把 待 处 理 的 数据 集 分 割 成 许多 小 数据 集 (splits) ,每 个 小 数据 集 进一步 分 解 
成 一 批 键 值 对 二 keyl,valuel 二 ,Hadoop 为 每 个 Split 创建 一 个 Map 任务 ,执行 用 户 自 定义 
的 map O PRÉC. fi Hh P IR] SR — key2 , value? 7 RE (AM. Sc En. E ,在 数据 处 理 过 程 中 ,数据 元 
素 都 是 不 可 变 的 ,也 就 是 说 系统 是 不 能 更 改 原始 数据 的 ,只 会 把 处 理 的 数据 元 素 输 出 到 下 一 
阶段 。 


输入 Mappers 中 间 数 据 Reducers 输出 


=| map0 


| 
1 
| 
1 
| splitl E map() 
| 
| 
| 


reduce() — part0 


reduce() |— partl 


split2.|——| map() 


5-7 MapReduce 处 理 数据 的 过 程 


Reduce 阶段 的 主要 作用 就 是 接收 来 自 输入 列表 的 迭代 器 ,把 这 些 数据 汇总 到 一 起 ,从 
大 规模 的 数据 集 汇总 形成 更 小 规模 的 数据 集 。Reducer 首先 把 从 不 同 Mapper 接收 来 的 数 
据 合 并 在 一 起 并 且 进 行 排序 ,然后 调用 reduce O PR Zt X} < key2 . list (v2) > HEFT 3H Iz AY Ab 
FE ,形成 新 的 键 值 对 二 key3 ,value3 二 。 


Ge? Mpidre fil 2828 py 
MapReduce 框架 主要 由 以 下 构件 组 成 ,它们 之 间 的 关系 如 图 5-8 所 示 。 


2 Getnew job ID ER 
MR |! Run Job Job =] JobTracker 5 Initialize job 
Program Client 4 Submit job 
Client Node JobTracker node 
3 Copy job Resources 7 Start Task 11 Return mission 
6 Retrieve input splits 
Y 
TaskTrack 
8 Retrieve job resources| 人 
19 launch 
10 Output Child JVM 
Child 
1 10 run 
Map or Reduce 
Task Tracker Node 


图 5-8 MapReduce 作业 运行 原理 


1. JobTracker 

JobTracker 是 运行 于 master 上 的 一 个 服务 , 它 负责 接收 Job ,调度 Job 的 每 一 个 子 任务 
Task 运行 于 TaskTracker 上 ,并 监控 它们 ,如 果 发 现 有 失败 的 Task 就 重新 运行 它们 。 

2. TaskTracker 

TaskTracker 是 运行 于 多 个 节点 上 的 slaver 服务 。TaskTracker 通过 心跳 (Heartbeat) 
与 JobTracker 通信 ,接收 作业 ,并 执行 任务 。 

3. JobClient 

每 一 个 Job 都 会 在 用 户 端 通过 JobClient 类 将 应 用 程序 以 及 配置 参数 Configuration 1T 
4X jar 文件 ,存储 在 HDFS 中 ,并 把 路 径 提 交 到 JobTracker 的 master 服务 ,由 master 创 
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建 一 个 Task 将 它们 分 发 到 各 个 TaskTracker 服务 中 去 执行 。 


4, JoblnProgress 

JobClient 提交 Job 后 ,JobTracker 会 创建 一 个 JobInProgress 来 跟踪 和 调度 这 个 Job. 
并 把 它 添加 到 Job 队列 里 。JobInProgress 会 根据 提交 的 任务 jar 中 定义 的 输入 数据 集 创 建 
对 应 的 一 批 TaskInProgress 用 于 监控 和 调度 MapTask, 同时 创建 指定 数目 的 
TaskInProgress 用 于 监控 和 调度 ReduceTask。 


5. TasklnProgress 

JobTracker 启动 任务 时 通过 每 一 个 TaskInProgress 来 运行 Task, 这 时 会 把 Task 对 象 
(El MapTask 和 ReduceTask) 序 列 化 写 入 相应 的 TaskTracker 服务 中 ,TaskTracker 收 到 
后 创建 对 应 的 TaskInProgress 用 于 监控 和 调度 Task。 启 动 具体 的 Task 进程 (通过 
TaskInProgress 进行 管理 ,通过 TaskRunner 对 象 来 运行 )。TaskRunner 会 自动 装载 任务 
jar 文件 并 设置 好 环境 变量 后 ,启动 一 个 独立 的 Java child 进程 来 执行 Task, 即 MapTask 或 
ReduceTask。 


6. MapTask 与 ReduceTask 

一 个 完整 的 Job 会 自动 依次 执行 Mapper,Combiner 和 Reducer, Mapper 和 Combiner 
是 由 MapTask 调用 执行 ,Reducer 由 ReducerTask 调用 。Combiner 实际 上 是 Reducer 接 
口 类 的 实现 。Mapper 读 入 过 keyl,valuel 二 键 值 对 ,生成 二 key2,value2 二 键 值 对 ,如 果 定 义 
了 Combiner,MapTask 会 调用 该 Combiner 将 相同 的 key 做 合并 处 理 ,减少 输出 的 键 值 对 。 
MapTask 完成 任务 后 , 交 给 ReduceTask 进程 调用 Reducer 处 理 , 生 成 二 key3, value3 > ft 
值 对 。 
se3 Mpre 运行 原理 

1. 作业 的 提交 

JobClient 的 runjob() 方 法 用 于 新 建 JobClient 实例 并 调用 其 submitJob() 方 法 ,提交 作 
业 后 ,runJob() 每 秒 轮 询 作业 的 进度 ,如 果 发 现 自 上 次 上 报 后 信息 有 所 改变 , 便 把 进度 报告 
到 控制 台 。 作 业 完 成 后 ,如 果 成 功 ,就 显示 作业 进度 器 ,如 果 失 败 ,导致 作业 失败 的 错误 也 会 
输出 到 控制 台 。 

JobClient 的 submitJob() 方 法 实现 的 作业 提交 过 程 如 下 。 

(1) 向 JobTracker 请 求 一 个 新 的 作业 ID 通过 JobTracker 的 getNewjJobId() 获 得 。 

(2) 检查 作业 的 输出 说 明 。 例 如 ,如 果 没 有 指定 输出 目录 或 者 它 已 经 存在 ,作业 就 不 会 
被 提交 ,并 将 错误 提交 给 MapReduce 程序 。 

(3) 计算 作业 的 输入 分 片 。 如 果 划 分 无 法 计算 ,例如 ,因为 输入 路 径 不 存在 ,作业 就 不 
会 被 提交 ,并 将 错误 返回 给 MapReduce 程序 。 

(4) 将 运行 作业 所 需要 的 资源 (包括 作业 的 jar 文件 ,配置 文件 和 计算 所 得 的 输入 划分 ) 
复制 到 一 个 以 作业 ID 命名 的 目录 下 JobTracker 的 文件 系统 中 ,作业 jar 副本 较 多 ,这 样 一 
来 ,在 TaskTracker 运行 作业 任务 时 ,集群 能 为 它们 提供 许多 副本 进行 访问 。 

(5) ClientNode 通过 调用 JobTracker 的 submitJob() 方 法 ,告知 JobTracker 准备 执行 
作业 。 
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2 作业 的 初始 化 

JobTracker 接收 到 对 其 submitJob() 方 法 调用 后 ,会 把 此 调用 放 入 一 个 内 部 队列 中 , 交 
由 作业 调度 器 进行 调度 ,并 对 其 进行 初始 化 。 初 始 化 包括 创建 一 个 代表 该 正在 运行 的 作业 
对 象 , 它 封 装 任务 和 记录 信息 ,以 便 跟踪 任务 的 状态 和 进程 。 

为 了 创建 任务 运行 列表 ,作业 调度 器 首先 从 共享 文件 系统 中 获取 JobClient 已 经 计算 好 
的 输入 划分 信息 ,然后 为 每 个 划分 创建 一 个 Map 任务 。 创 建 的 Reduce 任务 数 由 JobConf 
的 mapred. reduce. tasks 属性 决定 , 它 是 用 setNumReduceTasks() 方 法 设 定 的 ,然后 调度 器 
便 创 建 指定 个 数 的 Reduce 来 运行 任务 ,任务 在 此 时 被 指定 ID。 


3. 任务 的 分 配 

TaskTracker 执行 一 个 简单 的 循环 , 定期 发 送 心 跳 (heartbeat), 通 过 心跳 告诉 
JobTracker,TaskTracker 是 否 存活 ,是 否 可 以 接收 新 的 任务 ,同时 充当 两 者 之 间 的 消息 通 
道 。 每 个 TaskTracker 有 固定 数量 的 任务 槽 (slot) 来 处 理 Map 和 Reduce, 例如 ,一 个 
TaskTracker 同时 可 以 运行 两 个 Map 任务 和 两 个 Reduce 任务 ,任务 数 是 由 计算 机 的 内 核 
数量 和 内 存 数量 来 决定 的 。 调 度 器 在 处 理 Reduce 任务 槽 之 前 ,将 TaskTracker 的 Map f& 
填 满 ,然后 才 分 配 Reduce 任务 到 TaskTracker。 也 就 是 说 ,如 果 TaskTracker 有 一 个 Map 
槽 是 空闲 的 ,JobTracker 为 它 分 配 一 个 map 任务 ,否则 分 配 一 个 Reduce 任务 。 

JobTracker 选择 哪 一 个 TaskTracker 来 执行 Map 任务 ,涉及 本 地 化 问题 。 本 地 化 包括 
数据 本 地 化 和 机 架 本 地 化 。 数 据 本 地 化 (data-local) 是 指 任务 在 输入 数据 分 片 所 在 的 计算 
机 上 运行 ,这 是 最 理想 的 运行 方式 , 即 所 谓 的 “移动 计算 比 移动 数据 更 划算 ”。 机 架 本 地 化 
(rack-local) , 即 任务 和 输入 数据 分 片 不 在 同一 个 节点 上 ,但 在 同一 个 机 架 上 。 最 坏 情况 是 
任务 和 数据 不 在 同一 节点 ,也 不 在 同一 机 架 上 ,任务 运行 时 需要 从 其 他 机 架 的 节点 上 检索 数 
据 。 所 以 ,JobTracker 运行 Map 任务 时 ,首先 选择 数据 本 地 化 ,其 次 机 架 本 地 化 。 

而 Reduce 任务 则 不 需要 考虑 本 地 化 问题 ,简单 地 从 任务 列表 中 选择 下 一 个 任务 来 执 
行 即 可 。 因 为 Map 任务 的 输出 经 过 整理 ( 切 分 .排序 和 合并 ) 后 ,才能 够 把 中 间 结 果 交 给 
Reduce 任务 来 合并 , 这样 可 能 有 多 个 Map 任务 输出 到 一 个 Reduce 任务 来 处 理 。 所 以 ， 
Reduce 任务 不 需要 考虑 选择 与 Map 任务 在 同一 节点 或 同一 机 架 的 节点 上 运行 。 


4 任务 的 执行 

TaskTracker 分 配 到 一 个 任务 以 后 ,首先 把 作业 的 JAR 文件 从 HDFS 文件 系统 中 复制 
到 本 地 文件 系统 ,同时 还 把 应 用 程序 所 需要 的 全 部 文件 从 分 布 式 缓存 复制 到 本 地 文件 磁盘 ， 
接 下 来 TaskTracker 在 本 地 新 建 一 个 工作 目录 work ,并 把 JAR 文件 解压 到 这 个 目录 下 。 

TaskTracker 新 建 一 个 TaskRunner 实例 来 运行 该 任务 。TaskRunner 启动 一 个 新 的 
JVM 来 运行 每 个 任务 ,以 便 用 户 自 定 义 的 Map 和 Reduce PR BOK S2 n ZI) Task Tracker 守护 
进程 。 但 不 同 任务 之 间 重 用 JVM 还 是 有 可 能 的 。 子 进程 通过 umbilical 接口 与 父 进 程 通 
信 。 任 务 的 子 进程 每 隔 几 秒 便 告 知 父 进程 它 的 进度 ,直到 任务 完成 。 

5. 进度 和 状态 的 更 新 

MapReduce 任务 运行 时 间 可 能 从 几 秒 到 几 小 时 ,在 任务 运行 过 程 中 用 户 得 知 任务 的 运 
行 状 况 是 很 有 必要 的 。 那 么 客户 端 如 何 与 一 个 任务 进行 通信 ,了 解 任务 的 进度 与 状态 呢 ? 

任务 或 作业 的 信息 包括 状态 (running 状态 、successful 状态 、failed 状态 )、Map 和 
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Reduce 的 进度 .计算 器 值 , 状 态 消 息 和 描述 等 。 

任务 运行 过 程 中 ,进度 是 非常 重要 的 ,但 是 进度 并 非 总 是 可 以 预测 的 ,无 论 如 何 它 可 以 
告诉 Hadoop 有 个 任务 正在 运行 。 例 如 , 写 输出 记录 的 任务 可 以 表示 进度 ,但 是 它 不 能 用 总 
的 需要 写 的 百分比 来 表示 进度 ,因为 即使 通过 任务 产生 输出 ,后 面 的 输出 情况 也 是 无 法 准确 
预测 的 。 

进度 信息 对 Hadoop 来 说 很 重要 ,因为 有 了 它 , Hadoop 不 会 让 正在 运行 的 任务 失败 。 
构成 MapReduce 进度 的 操作 有 以 下 情况 。 

。 读 入 一 条 输入 记录 (在 Mapper BK Reducer 中 ) 。 

* 写 人 一 条 输入 记录 (在 Mapper 或 Reducer 中 ) 。 

。 在 一 个 reporter 中 设置 状态 描述 (使 用 reporter 的 setStatus() 方 法 ) 。 

。 增加 计数 器 (使 用 reporter 的 incrCounter() 方 法 ) 。 

。 调用 reporter 的 progress() 方 法 。 

如 果 任 务 报告 了 进度 , 便 会 设置 一 个 标志 以 表明 状态 变化 ,并 将 被 发 送 到 TaskTracker。 
有 一 个 独立 的 线程 每 隔 三 秒 检查 一 次 此 标志 ,如 果 已 经 设置 了 该 标志 , 则 告知 TaskTracker 
当前 任务 状态 。TaskTracker 会 每 五 秒 发 送 心跳 信息 到 JobTracker, 并 且 由 TaskTracker 
运行 的 所 有 任务 的 状态 都 会 在 调用 中 被 发 送 至 JobTracker。 计 数 器 的 发 送 间隔 通常 小 于 
五 秒 , 因 为 计数 器 占用 的 带宽 相对 较 高 。 

JobTracker 将 这 些 更 新 合并 起 来 ,产生 一 个 表明 所 有 运行 作业 及 其 所 含 任务 状态 的 全 局 
视图 。JobClient 通过 每 秒 查询 JobTracker 来 接收 最 新 状态 。 客 户 端 也 可 以 使 用 JobClient 的 
getJob() 方 法 来 得 到 一 个 RunningJob 的 实例 ,实例 中 包含 作业 的 所 有 状态 信息 。 


6 任务 完成 

当 JobTracker 收 到 作业 最 后 一 个 任务 已 经 完成 的 通知 后 , 便 把 作业 的 状态 设置 为 “成 
功 ”。 然 后 JobClient 查询 状态 时 , 便 知道 任务 已 经 完成 。 于 是 JobTracker 打印 一 条 消息 到 
控制 台 上 告知 用 户 ,最 后 从 jobRun() 方 法 返回 。 


5.3 Shuffle 和 Sort 


Shuffle 4 Sort 过 程 是 MapReduce 的 核心 过 程 。Shuffle 是 指 从 Map 输出 数据 开始 ， 
包括 执行 的 一 系列 数据 排序 以 及 把 数据 从 Map 输出 传送 到 Reduce 输入 的 过 程 。Sort 是 指 
对 Map 端 输出 数据 按 key 进行 排序 的 过 程 。Shuffle 的 正常 意思 是 洗 牌 或 弄 乱 , 可 能 大 家 
更 熟悉 的 是 Java API 中 的 Collections. shuffle(List) 方 法 , 它 会 随机 地 打 乱 参数 list 中 的 元 
素 顺序 。 如 果 不 知道 MapReduce 中 Shuffle 是 什么 ,那么 请 看 图 5-9. 

这 张 图 是 官方 对 Shuffle 过 程 的 描述 ,但 它 与 事实 还 是 有 差别 的 ,细节 也 是 错乱 的 。 后 
面 会 具体 描述 Shuffle 的 事实 情况 ,这 里 只 需要 清楚 Shuffle 怎样 把 MapTask 的 输出 结果 
有 效 地 传送 到 Reduce 端 。 也 可 以 这 样 理解 , Shuffle 描述 了 数据 从 MapTask 输出 到 
ReduceTask 输入 的 这 段 过 程 。 

在 Hadoop 这 样 的 集群 环境 中 .大 部 分 MapTask 与 ReduceTask 的 执行 是 在 不 同 的 节 
点 上 。 当 然 很 多 情况 下 Reduce 执行 时 需要 跨 节 点 去 拉 取 其 他 节点 上 的 MapTask 结果 。 
如 果 和 集群 正在 运行 的 Job 有 很 多 ,那么 Task 的 正常 执行 对 集群 内 部 的 网 络 资源 消耗 会 很 严 
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5-9 MapReduce 中 的 Shuffle 和 Sort 过 程 


重 。 这 种 网 络 消耗 是 正常 的 ,不 能 限制 ,能 做 的 就 是 最 大 化 地 减少 不 必要 的 消耗 。 还 有 在 节 
点 内 , 相 比 于 内 存 , 磁 盘 I/O 对 Job 完成 时 间 的 影响 也 是 可 观 的 。 从 最 基本 的 要 求 来 说 ,对 
Shuffle 过 程 的 影响 因素 有 以 下 几 点 。 

* 完整 地 从 MapTask 端 拉 取 数据 到 Reduce 端 。 

。 在 跨 节点 拉 取 数据 时 , 尽 可 能 地 减少 对 带宽 的 不 必要 消耗 。 

* 减少 磁盘 1/0 对 Task 执行 的 影响 。 

从 上 述 三 个 因素 可 以 看 出 ,对 Shuffle 过 程 能 够 进行 优化 的 地 方 主要 在 于 减少 拉 取 数 
据 的 量 及 尽量 使 用 内 存 而 不 是 磁盘 。 

从 图 5-9 看 出 ,Shuffle 过 程 横 跨 Map 与 Reduce 两 端 , 所 以 也 从 Map 端 和 Reduce 端 两 
部 分 来 介绍 Shuffle 过 程 。 
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Map 端的 整个 Shuffle 过 程 简单 地 说 是 这 样 的 : 每 个 MapTask 都 有 一 个 内 存 缓冲 区 ， 
存储 着 Map 的 输出 结果 , 当 缓 冲 区 快 满 时 需要 将 缓冲 区 的 数据 以 一 个 临时 文件 的 方式 存放 
到 磁盘 , 当 整个 MapTask 结束 后 再 对 磁盘 中 这 个 Map Task 产生 的 所 有 临时 文件 做 合并 , 生 
成 最 终 的 正式 输出 文件 ,然后 等 待 ReduceTask 来 “ 拉 ” 数 据 , 如 图 5-10 所 示 。 

下 面 以 WordCount 为 例 ,说 明 Shuffle 过 程 ,并 假设 它 有 8 个 MapTask 和 3 个 
ReduceTask. 

(1) 在 MapTask 执行 时 , 它 的 输入 数据 来 源 于 
HDFS 的 Block. 当然 在 MapReduce 概念 中 , MapTask 
只 读 取 Split, Split 与 Block 的 对 应 关系 可 能 是 多 对 一 ， 
默认 是 一 对 一 。 在 WordCount 例子 中 ,假设 Map 的 输 
人 数据 都 是 像 aaa 这 样 的 字符 串 。 (3) Spill:Sort&Combiner 

(2) 在 经 过 Mapper 的 运行 后 ,得 知 Mapper 的 输出 t Es 
是 一 个 二 key, value Xf, Key 是 aaa. Value 是 数值 1. ( ) C MOT ) 
因为 当前 Map 端 只 做 加 1 的 操作 ,在 Reduce Task 中 才 ”图 5-10 Map 3i Shuffle 过 程 
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去 合并 结果 集 。 前 面 知道 这 个 Job A 3 个 Reduce Task, 到 底 当 前 的 aaa 应 该 交 由 哪个 
Reduce 去 做 ,是 需要 马上 决定 的 。 

MapReduce 提供 Partitioner 接口 , 它 的 作用 就 是 根据 Key 或 Value Æ Reduce 的 数量 
来 决定 当前 的 这 对 输出 数据 最 终 应 该 交 由 哪个 Reduce Task 处 理 。 默 认 对 Key Hash 后 再 
以 Reduce task 数量 取 模 。 默 认 的 取 模 方式 只 是 为 了 平均 Reduce 的 处 理 能 力 , 如 果 用 户 自 
已 对 Partitioner 有 需求 ,可 以 定制 并 设置 到 Job 上 。 

接 下 来 ,需要 将 数据 写 人 内 存 缓冲 区 中 ,缓冲 区 的 作用 是 批量 收集 Map 结果 ,减少 磁盘 
1/0 的 影响 。 二 key, value> XE LL Partition 的 结果 都 会 被 写 和 缓冲 区 。 当 然 写 人 之 前 ， 
key 与 value 值 都 会 被 序列 化 成 字 节 数 组 ,整个 内 存 缓冲 区 就 是 一 个 字 节 数 组 。 

G) 这 个 内 存 缓冲 区 是 有 大 小 限制 的 ,大 小 通过 io. sort. mb 属性 来 设 定 ,默认 是 
100MB。 当 Map Task 的 输出 结果 很 多 时 ,就 可 能 会 撑 爆 内 存 , 所 以 需要 在 一 定 条 件 下 将 组 
冲 区 中 的 数据 临时 写 入 磁盘 ,然后 重新 利用 这 块 缓冲 区 。 整 个 缓冲 区 有 个 溢 写 的 比例 (io. 
sort. mb * io. sort. spill. percent ,其 中 io. sort. spill. percent 默认 值 为 0. 80) ,也 就 是 当 缓 冲 
区 的 数据 已 经 达到 准 值 (buffer size * spill percent=100MB * 0. 8=80MB) t} , Xi 5 2k FE 
启动 ,锁定 这 80MB 的 内 存 ,执行 溢 写 过 程 。Map Task 的 输出 结果 还 可 以 往 剩 下 的 20MB 
内 存 中 写 , 互 不 影响 。 这 个 溢 写 是 由 单独 线程 来 完成 ,不 影响 往 缓冲 区 写 Map 结果 的 线程 。 
洲 写 线程 启动 时 不 应 该 阻止 Map 的 结果 输出 。 当 溢 写 线程 启动 后 ,需要 对 这 80MB 空间 内 
的 Key 做 排序 (Sort) 。 排 序 是 MapReduce 模型 默认 的 行为 ,这 里 的 排序 也 是 对 序列 化 的 字 
节 做 的 排序 。 

MapTask 的 输出 是 需要 发 送 到 不 同 的 Reduce 端 去 ,而 内 存 缓冲 区 没有 对 将 发 送 到 相 
同 Reduce 端的 数据 做 合并 ,那么 这 种 合并 应 该 是 体现 的 是 磁盘 文件 中 的 。 从 图 5-10 中 也 
可 以 看 到 写 到 磁盘 中 的 溢 写 文件 是 对 不 同 的 Reduce 端的 数值 做 过 合并 。 所 以 溢 写 过 程 一 
个 很 重要 的 细节 在 于 ,如 果 有 很 多 个 二 key,value 二 对 需要 发 送 到 某 个 Reduce 端 去 ,那么 需 
要 将 这 些 志 key,value> 值 拼接 到 一 块 ,减少 与 Partition 相关 的 索引 记录 。 

在 针对 每 个 Reduce 端 而 合并 数据 时 ,有 些 数 据 可 能 像 这 样 :“aaa?/1，“aaa"/1。 对 
WordCount 例子 ,就 是 简单 地 统计 单词 出 现 的 次 数 , 如 果 在 同一 个 MapTask 的 结果 中 有 很 
多 个 像 aaa 一 样 出 现 多 次 的 Key, 就 应 该 把 它们 的 值 合并 到 一 块 ,这 个 过 程 叫 Reduce 也 叫 
Combine。 但 MapReduce 的 术语 中 ,Reduce 只 指 Reduce 端 执行 从 多 个 Map Task 取 数 据 
做 计算 的 过 程 。 除 Reduce 外 , 非 正式 地 合并 数据 只 能 算 做 Combine。MapReduce 中 将 
Combiner 等 同 于 Reducer。 

如 果 client 设置 了 Combiner, 并 且 spill 文件 的 数量 至 少 是 3( 由 min. num. spills. for. 
combine 属性 控制 ),Combiner 将 在 输出 文件 写 入 磁盘 前 运行 以 压缩 数据 。 对 数据 进行 压 
缩 可 以 加 快 数据 写 入 磁盘 的 速度 ,节约 磁盘 空间 ,并 减少 需要 传送 到 Reduce 端的 数据 量 。 
这 个 参数 为 mapred. compress. map. output ,默认 是 不 不 缩 的 ,把 该 值 设 为 true 将 启动 该 功 
能 ,压缩 所 使 用 的 库 由 mapred. map. output. compression. codec 来 设 定 。 

哪些 场景 才能 使 用 Combiner 呢 ? 从 这 里 分 析 ,Combiner 的 输出 是 Reducer 的 输入 ， 
Combiner 绝 不 能 改变 最 终 的 计算 结果 。 所 以 Combiner 只 应 该 用 于 那 种 Reduce 的 输入 
二 key,value 广 与 输出 二 key,value 二 类 型 完全 一 致 , 且 不 影响 最 终结 果 的 场景 。 比 如 累加 ， 
最 大 值 等 。Combiner 的 使 用 一 定 得 慎重 ,如 果 用 好 , 它 对 Job 执行 效率 有 帮助 ,反之 会 影响 
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(SEE Hadoop 大 数据 处 理 
18) 
CO Reduce 的 最 终结 果 。 

(A) 每 次 溢 写 会 在 磁盘 上 生成 一 个 溢 写 文件 ,如 果 Map 的 输出 结果 真 的 很 大 ,有 多 次 
这 样 的 溢 写 发 生 , 磁 盘 上 相应 地 就 会 有 多 个 溢 写 文件 存在 。 当 MapTask 真正 完成 时 ,内 存 
缓冲 区 中 的 数据 也 全 部 溢 写 到 磁盘 中 形成 一 个 溢 写 文件 。 最 终 磁盘 中 会 至 少 有 一 个 这 样 的 
滋 写 文件 存在 (如 果 Map 的 输出 结果 很 少 , 当 Map 执行 完成 时 ,只 会 产生 一 个 溢 写 文件 )， 
因为 最 终 的 文件 只 有 一 个 ,所 以 需要 将 这 些 溢 写 文件 归并 到 一 起 ,这 个 过 程 就 叫 作 Merge. 
Merge 是 怎样 的 ?如 前 面 的 例子 ,aaa 从 某 个 MapTask 读 取 过 来 时 值 是 5, 从 另外 一 个 Map 
读 取 时 值 是 8, 因 为 它们 有 相同 的 Key, 所 以 得 Merge 成 Group。 什 么 是 Group ,对 aaa 就 是 
像 这 样 的 : (“aaa”,[5,8,2,…]) ,数组 中 的 值 就 是 从 不 同 溢 写 文件 中 读 取出 来 的 ,然后 再 把 
这 些 值 加 起 来 。 请 注意 ,因为 merge 是 将 多 个 溢 写 文件 合并 到 一 个 文件 ,所 以 可 能 也 有 相 
同 的 Key 存在 ,在 这 个 过 程 中 如 果 Client 设置 过 Combiner, 也 会 使 用 Combiner 来 合并 相 
同 的 Key。 

至 此 ,Map 端的 所 有 工作 都 已 结束 ,最 终生 成 的 这 个 文件 也 存放 在 Task Tracker™ i (3 
着 ”的 某 个 本 地 目录 内 。 每 个 ReduceTask 不 断 地 通过 RPC 从 JobTracker 那里 获取 
MapTask 是 否 完成 的 信息 ,如 果 ReduceTask 得 到 通知 ,获知 某 台 TaskTracker 上 的 
MapTask 执行 完成 ,Shuffle 的 后 半 段 过 程 开 始 启动 。 
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ReduceTask 在 执行 之 前 的 工作 就 是 不 断 地 拉 取 当前 Job 里 每 个 MapTask 的 最 终结 
果 , 然 后 对 从 不 同 地 方 拉 取 过 来 的 数据 不 断 地 做 Merge, 也 最 终 形成 一 个 文件 作为 
ReduceTask 的 输入 文件 ,如 图 5-11 所 示 。 


OR Raw 


性 三 = 一 二 二 i di input ReduceTask 


Other TaskTrack 


Denny 


图 5-11 Reduce 4 Shuffle 过 程 


Shuffle Æ Reduce 端的 过 程 也 能 用 图 5-11 上 标明 的 三 点 来 概括 。 当 前 Reduce copy 数 
据 的 前 提 是 它 要 从 JobTracker 获得 有 哪些 MapTask 已 执行 结束 。Reducer 真正 运行 之 前 ， 
所 有 的 时 间 都 是 在 拉 取 数据 ,做 Merge, 且 不 断 重 复 地 在 做 。 下 面 分 段 地 描述 Reduce 端的 
Shuffle 细节 ,参照 图 5-11. 

(1) Copy 过 程 ,简单 地 拉 取 数据 。Reduce 进程 启动 一 些 数据 copy 线程 (Fetcher) , 通 
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过 HTTP 方式 请 求 MapTask 所 在 的 TaskTracker 获取 MapTask 的 输出 文件 。 因 为 
MapTask 早已 结束 ,这 些 文件 就 归 Task Tracker 管理 在 本 地 磁盘 中 。 

(2) Merge 阶段 。 这 里 的 Merge 如 Map 端的 Merge 动作 ,只 是 数组 中 存放 的 是 不 同 
Map 端 copy 来 的 数值 。Copy 过 来 的 数据 会 先 放 入 内 存 缓冲 区 中 ,这 里 的 缓冲 区 大 小 要 比 
Map 端的 更 为 灵活 , 它 基 于 JVM 的 heap size 设置 ,因为 Shuffle 阶段 Reducer 不 运行 ,所 以 
应 该 把 绝 大 部 分 的 内 存 都 给 Shuffle 用 。 这 里 需要 强调 的 是 ,Merge 有 三 种 形式 : OW FS 
内 存 ; @@ 内 存 到 磁盘 ; @ 磁 盘 到 磁盘 。 默 认 情 况 下 第 一 种 形式 不 启用 。 当 内 存 中 的 数据 量 
到 达 一 定 辣 值 ,就 启动 内 存 到 磁盘 的 Merge。 与 Map 端 类 似 ,这 也 是 溢 写 的 过 程 ,这 个 过 程 
中 如 果 设 置 有 Combiner, 也 是 会 启用 的 ,然后 在 磁盘 中 生成 了 众多 的 滋 写 文件 。 第 二 种 
Merge 方式 一 直 在 运行 ,直到 没有 Map 端的 数据 时 才 结 束 , 然 后 启动 第 三 种 磁盘 到 磁盘 的 
Merge 方式 生成 最 终 的 那个 文件 。 

(3) Reducer 的 输入 文件 。 不 断 地 Merge 后 ,最 后 会 生成 一 个 合并 后 的 文件 ,这 个 文件 
可 能 存在 于 磁盘 上 ,也 可 能 存在 于 内 存 中 。 对 我 们 来 说 ,当然 希望 它 存放 于 内 存 中 ,直接 作 
为 Reducer 的 输入 ,但 默认 情况 下 ,这 个 文件 是 存放 于 磁盘 中 的 。 至 于 怎样 才能 让 这 个 文件 
出 现在 内 存 中 ,之 后 的 性 能 优化 篇 再 作 介绍 。 当 Reducer 的 输入 文件 已 定 ,整个 Shuffle A 
最 终结 束 。 然 后 就 是 Reducer 执行 ,把 结果 放 到 HDFS 上 。 


533 Suffte 过 程 优化 


K 5-1 和 表 5-2 罗列 了 Map 和 Reduce 端 有 关 Shuffle 的 参数 ,通过 调整 参数 值 ,可 以 优 
化 Shuffle 过 程 。 


表 5-1 Map 端 参数 优化 


参数 名 称 类 型 默 认 值 功能 描述 
we int iwi 排序 Map 输出 时 所 使 用 内 存 缓冲 区 的 大 
SIN 小 ,以 MB 为 单位 
用 作 存 储 Map 输出 记录 边界 的 io. sort. bm 
io. sort. record. percent | int 0.05 的 比例 ,剩余 的 空间 用 来 存储 Map 输出 记 
录 本 身 
Map 输出 内 存 缓冲 和 用 来 开始 磁盘 溢出 写 
io. sort. spill. percent int 0.8 过 程 的 记录 边界 索引 ,是 两 者 使 用 比例 的 
BE 
io. sort. factor int 10 排序 文件 时 一 次 最 多 合并 的 流 的 数量 
mapied. compress: map. boolean | false Map 输出 是 否 压缩 
output 
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BR 
ERA P 类 型 默 认 值 功能 描述 
mapred. map. out. comp- dass org. apache. hadoop. io. 用 于 Map 输出 的 压缩 编码 解码 
ression. codec compress. DefaultCodec 
LEE ame 运行 Combinar 所 需要 的 最 少 溢出 写 文件 数 
个 TaskTracker 工 2 , 
tasktracker. http. threads| int 40 iid e B kane 作 的 线程 数 ,用 于 将 
表 5-2 Reduce 端的 优化 
参数 名 称 类 型 | 默认 值 功能 描述 
mapred. reduce. parallel. copies int 5 每 个 Reduce 并 行 下 载 Map 结果 的 最 大 线程 数 
mapred. reduce. copy. backoff int 300 Reduce 下 载 线程 最 大 的 等 待 时 间 
io. sort. factor int 10 同 表 5-1 


mapred. job. shuffle. input. buffer. float 0.7 用 来 缓存 Shuffle 数据 的 reduce, task. heap 百分比 


percent 

mapred. job. shuffle. merge. float 0.66 缓存 的 内 存 中 多 少 百分比 后 开始 做 merge 和 磁盘 
percent ” | “| 滋 出 写 的 操作 

mapred. job. reduce. input. buffer. float 0.0 sort 完成 后 Reduce 计算 阶段 用 来 缓存 数据 的 百 
percent i g 分 比 


Shuffle 优化 的 原则 是 给 Shuffle 过 程 尽 可 能 多 的 内 存 . 同 时 也 要 保证 map 函数 和 
reduce PARA HWS AYA FE. LSE map 函数 和 reduce 函数 尽量 少 用 内 存 的 原因 。 


5.4 任务 的 执行 


前 面 章节 中 介绍 了 MapReduce 作业 的 运行 机 制 ,知道 了 MapReduce 是 怎样 运行 的 ,下 
面 介 绍 MapReduce 用 户 对 任务 执行 的 更 多 控制 。 


sar “推测 执行 


MapReduce 模型 把 作业 分 成 多 个 任务 在 多 个 节点 上 执行 ,这 样 做 的 好 处 是 使 整体 运行 
时 间 少 于 各 任务 顺序 执行 的 时 间 和 。 在 各 个 任务 中 ,很 可 能 有 某 个 任务 执行 效率 非常 缓慢 ， 
当 其 他 任务 都 已 经 执行 完毕 了 ,整个 作业 等 待 那些 执行 缓慢 的 任务 的 结束 ,这 种 “ 拖 后 腿 ” 的 
现象 很 常见 。 

任务 运行 缓慢 的 原因 很 多 ,最 常见 的 原因 有 : 硬件 老化 、 系 统 配 置 错误 等 ,Hadoop 不 会 
尝试 修复 这 样 的 问题 ,而 是 检测 到 有 任务 比 预期 慢 时 ,会 调度 空闲 的 节点 执行 剩余 任务 的 复 
制 , 这 个 优化 执行 过 程 叫 推测 执行 。 当 任务 完成 时 , 它 向 JobTracker 通告 ,如 果 其 他 的 复制 任 
务 还 在 执行 中 , 则 JobTracker 通过 TaskTracker 结束 这 些 任务 并 丢弃 它们 的 输出 。 

推测 执行 默认 是 开启 的 ,推测 执行 虽然 可 以 减少 作业 的 执行 时 间 , 却 降低 了 集群 的 执行 
效率 ;在 繁忙 的 集群 中 减少 了 吞吐 量 , 因 此 ,出 于 效率 的 考虑 管理 员 往 往 停止 集群 的 推测 执 


BSH MORD RAZRAD 


(1129 


行 ,而 只 是 针对 个 别 作业 开启 推测 执行 。 

属性 mapred. map. tasks. speculative. execution 决定 当 Map 任务 执行 缓慢 时 是 否 开 启 
复制 的 Map 任务 ,默认 为 true; 属性 mapred. reduce. tasks. speculative. execution 决定 当 
Reduce 任务 执行 缓慢 时 是 否 开启 复制 的 Reduce 任务 ,默认 为 true。 


See 任务 MM 重用 


Hadoop 中 每 个 任务 都 是 在 自己 的 JVM 中 运行 ,以 与 其 他 正在 运行 任务 相 区 别 , 如 果 
开启 一 个 新 的 JVM 需要 1 秒 钟 ,对 一 个 运行 时 间 较 长 的 任务 来 说 1 秒 微不足道 ,但 是 如 果 
集群 中 有 大 量 超 短 任务 ,开启 新 JVM 所 耗 时 间 就 比较 可 观 了 ,可 以 采用 JVM 重用 的 方式 
优化 性 能 。JVM 重用 可 以 使 同一 个 Job 的 一 些 静 态 数 据 得 到 共享 ,从 而 极 大 地 提升 集群 的 
性 能 。 但 JVM 重用 也 会 带 来 JVM 中 碎片 增加 的 问题 ,使 JVM 性 能 变 差 ,这 对 JVM 来 说 
影响 不 是 很 大 。 

属性 mapred. job. reuse. jvm. num. task 的 默认 值 是 1, 也 就 是 说 每 个 Task 都 会 开启 一 
个 新 的 JVM, 当 设置 为 一 1 时 ,JVM 可 以 无 限制 地 重用 。jobconf 中 的 setNumTasksTo- 
ExcucutePerJvm() 方 法 也 可 以 设置 该 参数 。 

E JVM 重用 时 ,要 注意 map/reduce 函数 中 静态 变量 共享 的 问题 ,应 考虑 是 对 静态 变 
量 进 行 初始 化 还 是 使 用 上 次 使 用 的 值 。 


S43 跳 过 坏 的 记录 


在 非常 元 杂 的 大 数据 中 ,数据 错误 或 格式 不 一 致 是 常见 的 现象 ,由 于 这 种 错误 导致 任务 
失败 也 是 常见 的 事情 ,因此 跳 过 坏 的 记录 是 比较 明智 的 。 为 了 给 skipping mode 增加 足够 
的 尝试 次 数 以 记录 一 个 输入 分 片 中 的 所 有 坏 记 录 ,需要 增加 较 多 的 task attempt 次 数 。 通 
过 属性 mapred. map. max. attempts 和 mapred. reduce. max. attempts 可 以 设置 重 试 的 
次 数 。 

Hadoop 检测 出 来 的 坏 记 录 以 序列 文件 的 方式 保存 在 _log/skip 目录 下 ,在 作业 完成 后 ， 
可 以 查看 这 些 记录 ,可 以 用 : hadoop fs -text 形式 命令 查看 。 


5aa 任务 执行 的 信息 


在 MapReduce 程序 中 ,可 以 通过 环境 属性 获得 作业 和 任务 的 某 些 信息 ,参照 表 5-3。 
如 : Map 任务 可 以 知道 它 正 处 理 的 文件 名 ,map/reduce 可 以 知道 任务 尝试 的 次 数 。 通 过 
Mapper 或 Reducer 的 configure() 可 以 实现 ,配置 信息 作为 参数 进行 传递 的 。 


表 5-3 任务 属性 描述 


属性 名 称 类 型 功能 描述 示 例 
mapred. job. id String “| 作业 ID job 201409301233 0001 
mapred. tip. id String 任务 ID task 201409301233 0001 m 000003 
mapred. task. id String 任务 尝试 ID( 非 任务 ID) | attempt 201409301233 0001 m 000003 0 
mapred. task. partition| int 作业 中 任务 ID 3 
matred. task. is. map | boolean | 此 任务 是 否 为 Map 任务 | true 


5.5 故障 处 理 


在 MapReduce 程序 运行 的 实际 过 程 中 ,用 户 代码 存在 软件 错误 ,进程 会 月 溃 , 计 算 机 会 
产生 故障 。 使 用 Hadoop 最 大 好 处 就 是 能 够 对 系统 的 故障 做 出 处 理 ,成 功 完成 任务 。 


Sal 任务 失败 


任务 失败 有 两 种 情况 : Map 或 Reduce 任务 失败 及 子 进程 JVM 突然 退出 。 

Map 或 Reduce 任务 是 用 户 自己 编写 的 代码 ,是 最 容易 失败 的 部 分 ,发 生 Map 或 
Reduce 失败 时 , 子 任务 JVM 进程 会 在 退出 之 前 向 上 一 级 TaskTracker 发 送 错误 报告 。 错 
误 报告 最 后 会 记录 在 用 户 的 错误 日 志 中 ,TaskTracker 将 此 次 尝试 标记 为 failed. 释放 一 个 
任务 槽 来 运行 另 一 个 任务 。 

另 一 个 失败 是 子 进程 JVM 突然 退出 ,这 可 能 是 由 于 JVM 的 错误 导致 的 ,从 而 导致 
MapReduce 用 户 代码 执行 失败 。 这 时 ,TaskTracker 监控 到 进程 已 经 退出 ,并 将 此 次 尝试 
标记 为 failed, 

还 有 一 种 情况 ,如 果 TaskTracker 长 时 间 没 有 收 到 进度 的 更 新 信息 , 便 将 任务 标记 为 
failed, JVM 子 进 程 将 被 自动 杀 死 。 通 常情 况 下 ,任务 失败 的 时 间 间 隔 为 10 分 钟 ,也 可 以 在 
mapreduce. task. timeout 属性 中 以 毫秒 为 单位 进行 设置 。 当 把 timeout 属性 设置 为 0 时 ， 
将 关闭 进度 检查 ,这 时 ,长 时 间 运 行 的 任务 不 会 被 标记 为 failed, 这 个 被 挂 起 的 任务 也 不 会 
释放 他 占用 的 任务 槽 ,这 样 势必 影响 整个 集群 的 性 能 。 


SSse TskTecker 失败 


在 任务 运行 过 程 中 ,TaskTracker 会 不 断 地 发 送 心跳 信息 给 JobTracker, 如 果 任 务 运行 
得 非常 缓慢 或 者 已 经 崩溃 , 它 将 很 少 或 停止 向 JobTracker 发 送 心跳 信息 ,JobTracker 检测 
到 这 个 异常 的 TaskTracker, 并 将 它 从 等 待 任务 调度 的 TaskTracker 池 中 删除 。 如 果 任 务 
未 完成 ,JobTracker 安排 此 TaskTracker 上 已 经 成 功 运行 并 完成 任务 的 Map 任务 重新 启动 
继续 完成 这 个 任务 。 时 间 间 隔 的 值 是 通过 mapred. tasktracker. expiry. interval 来 设置 的 。 


553  Hilreeker 失败 


JobTracker 失败 无 疑 是 Hadoop 中 最 严重 的 失败 ,因为 Hadoop 中 存在 单 点 问题 ,这 种 
情况 下 作业 注定 是 要 失败 的 。 尽 管 JobTracker 失败 的 概率 非常 小 ,但 还 是 应 该 避免 这 种 情 
况 的 出 现 , 可 以 运行 多 个 JobTracker. it Zookeeper 帮助 这 几 个 已 经 运行 的 JobTracker 
进行 协调 ,确定 哪个 是 主 JobTracker。 当 然 ,集群 中 只 有 一 个 主 JobTracker。 


55a 任务 失败 重 试 的 处 理 方法 


JobTracker 检测 到 某 个 任务 尝试 失败 以 后 , 它 重 新 调度 该 任务 的 执行 ,超过 重 试 的 次 
数 后 ,整个 Job 就 会 失败 。Map 任务 重 试 的 次 数 由 参数 mapred. map. max. attempts 决定 ， 
Reduce 任务 重 试 的 次 数 由 参数 mapred. reduce. max. attempts 决定 ,当然 ,JobTracker 尝试 
避免 重新 调度 失败 过 的 TaskTracker 上 的 任务 。 
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对 一 些 应 用 程序 ,不 希望 它 因为 少数 的 几 次 失败 而 宣告 整个 任务 的 失败 ,而 是 采用 按 失 
败 百分比 的 方式 来 确定 何 时 宣告 整个 任务 的 失败 。Hadoop 中 ,在 参数 mapred. max. 
failures. persent 中 设置 这 个 值 。 

在 mapred-site. xml 配置 文件 中 ,加 入 下 面 的 配置 项 ,重启 JobTracker (hadoop- 
daemon. sh stop/start jobtracker) . Map 任务 失败 重 试 次 数 的 设置 就 生效 了 。 


<property> 
<name> mapred.max.map.failures.percent« /name> 
«value» 5< /value> 
</property> 
上 面 的 设置 是 Map 任务 重 试 的 次 数 为 整个 任务 数 的 5%, 比 如 : 整个 任务 有 500 个 
Map 任务 ,单个 Job 任务 允许 有 25 个 Map 任务 失败 。 
对 Reduce 任务 也 有 类 似 的 设置 ,参数 为 mapred. max. reduce. failures. percent, 


5.6 作业 调度 


在 Hadoop MapReduce 并 行 计算 框架 中 ,每 个 作业 被 划分 为 更 小 粒度 的 任务 单元 , 因 
此 ,Hadoop 作业 调度 在 选择 合适 的 作业 之 后 ,还 需要 选择 合适 的 任务 。 大 数据 背景 下 , 计 
算 向 数据 迁移 就 显得 更 重要 ,正如 前 面 章节 中 所 说 : 移动 计算 比 移 动 数据 更 经 济 。 在 给 计 
算 节点 分 配 Map 任务 时 , Hadoop 优先 选择 输入 数据 保存 在 本 地 节点 的 Map 任务 ;次 之 选 
择 数 据 保存 在 邻近 节点 的 任务 ,如 一 个 机 架 上 的 另 一 节点 上 的 任务 ;而 Reduce 任务 的 输入 
数据 是 通过 网 络 从 Map 端 远程 复制 过 来 的 ,不 具有 这 种 本 地 执行 的 性 质 , 因 此 可 以 随意 分 
配 。Hadoop 中 作业 调度 是 由 作业 调度 器 来 控制 的 , Hadoop 作业 调度 器 采用 的 是 插件 机 
制 ,也 就 是 作业 调度 器 是 动态 加 载 的 ,可 插 拔 ,也 可 以 自己 开发 调度 器 。Hadoop 默认 提供 
了 三 种 作业 调度 器 ,分 别 是 先进 先 出 (FIFO) 的 调度 器 、 能 力 (Capacity) 调 度 器 、 公 平 (Fair) 
调度 器 。 
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先进 先 出 调度 器 是 Hadoop 默认 的 调度 器 ,在 该 调度 器 中 ,可 以 通过 mapred. job. 
priority 属性 或 调用 JobClient 的 setJobPriority() 方 法 设置 作业 的 优先 级 。 优 先 级 分 为 
VERY_HIGH、HIGH、NORMAL、LOW、VERY_LOW 五 级 。 所 有 作业 都 被 提交 到 一 个 队 
列 中 ,然后 由 JobTracker 按照 作业 的 优先 级 ,再 按 提交 的 时 间 先 后 顺序 执行 作业 。 先 进 先 
出 调度 器 的 优先 级 并 不 支持 资源 抢占 ,因此 ,只 要 已 经 开始 执行 的 作业 ,无 论 其 优先 级 高 低 ， 
都 不 会 被 未 执行 的 高 优先 级 作业 打 断 。 

采用 FIFO 调度 器 时 ,整个 系统 的 资源 被 一 个 作业 独占 ,因此 ,一 个 优先 级 较 低 或 相同 
优先 级 但 提交 时 间 较 晚 的 任务 可 能 一 直 被 阻塞 , 迟 迟 得 不 到 响应 ;在 FIFO 调度 模式 下 , 若 
作业 较 小 ,这 时 系统 资源 被 极 大 地 浪费 ;即使 作业 较 大 ,在 作业 启动 及 完成 阶段 ,由 于 其 任务 
无 法 占 满 集群 的 所 有 节点 ,因此 .集群 资源 的 利用 率 将 会 较 低 。 
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hee 能 力 调 度 器 

能 力 调度 器 由 Yahoo 公司 提出 , 它 采用 多 队列 的 方式 组 织 集群 中 的 计算 资源 ,这 些 队 
列 可 以 采用 层次 结构 连接 在 一 起 。 每 个 队列 被 分 配 了 一 定 的 计算 资源 , 且 采 用 支持 优先 级 
的 先进 先 出 调度 方式 在 队列 内 进行 作业 调度 。 为 了 防止 一 个 队列 中 同一 个 用 户 的 作业 独占 
此 队列 中 的 全 部 资源 ,能 力 调度 器 会 对 同一 用 户 提交 的 作业 所 占 资 源 进行 限制 。 在 进行 作 
业 调 度 时 ,调度 器 选择 一 个 合适 的 队列 分 配 作业 ,其 方式 是 计算 每 个 队列 中 正在 运行 的 任务 
数 与 其 应 该 分 得 的 计算 资源 之 间 的 比较 ,选择 一 个 比值 最 小 的 队列 ,然后 从 队列 选择 一 个 作 
业 执行 ,其 方式 是 先 按照 作业 优先 级 高 低 ,再 按 作业 提交 时 间 的 早晚 进行 选择 ,同时 考虑 用 
户 资源 量 限制 和 内 存 限制 。 

采用 计算 能 力 调度 器 具有 以 下 主要 特点 。 

(1) 通过 优先 级 调度 资源 使 用 率 低 的 队列 来 保证 多 个 队列 公平 地 分 享 整个 集群 的 
资源 。 

(2) 单个 队列 的 调度 支持 先进 先 出 的 调度 策略 。 

(3) 在 调度 作业 的 过 程 中 ,考虑 内 存 的 使 用 情况 是 否 能 够 满足 任务 地 执行 需求 ,避免 分 
配 任务 后 执行 失败 又 重复 执行 ,浪费 了 集群 的 资源 。 

从 资源 的 利用 角度 来 说 ,该 调度 器 考虑 了 节点 内 存 资源 的 使 用 情况 ,避免 了 内 存 资源 的 
枯竭 导致 任务 执行 效率 低下 甚至 失败 。 但 该 调度 器 没有 考虑 1/O 密集 型 作业 的 资源 耗费 
问题 , 它 也 没有 考虑 把 内 存 密集 型 和 1/O 密集 型 混合 调度 ,使 内 存 和 其 他 硬件 资源 的 利用 
率 达 到 均衡 的 问题 。 
553 公平 调度 器 

公平 调度 器 由 Facebook 公司 提出 , 它 的 设计 目标 是 支持 系统 的 所 有 用 户 可 以 公平 地 共 
享 集群 的 计算 能 力 ,而 不 会 被 某 个 用 户 独占 。 公 平 调度 器 为 每 个 用 户 维护 一 个 计算 资源 池 ， 
整个 集群 的 计算 资源 按 用 户 的 设 定 被 公平 地 分 配 到 这 些 资源 池 中 ,每 个 用 户 可 以 提交 多 个 
作业 ,这 些 作业 按照 公平 共享 的 方式 分 享 该 用 户 占有 的 资源 池 中 的 计算 能 力 。 当 分 配给 某 
个 用 户 的 资源 池 没 有 被 任何 作业 使 用 时 ,这 些 资源 也 可 以 被 其 他 用 户 共享 。 公 平 调度 器 还 
具有 支持 资源 抢占 、 每 个 资源 池 自 定义 调度 方式 等 高 级 特性 ,合理 地 使 用 公平 调度 器 可 以 降 
低 作 业 响 应 时 间 、 提 高 系统 整体 吞吐 量 。 

公平 调度 器 具有 以 下 特点 。 

(1) 每 个 作业 都 拥有 最 低 限 度 的 资源 保障 .不 至 于 迟 迟 得 不 到 资源 而 无 法 执行 。 

(2) 采用 了 灵活 的 调度 策略 ,管理 员 可 以 实时 地 修改 作业 的 权重 、 最 小 共享 量 等 参数 。 

G) 采用 延迟 调度 算法 ,大 大 减 小 了 集团 中 的 网 络 开 销 、 同 时 缩短 了 任务 的 平均 执行 
时 间 。 


5.7 MapReduce 编程 接口 


MapReduce 要 处 理 的 数据 是 以 文件 形式 保存 在 HDFS 中 的 ,文件 的 格式 根据 需要 设置 
各 异 , 有 基于 行 的 文本 格式 文件 .二进制 的 序列 文件 ,多 行 输入 记录 格式 ,或 者 其 他 格式 ,并 
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且 文 件 的 大 小 也 各 不 相同 ,有 的 文件 非常 大 ,达到 几 十 GB、 几 百 GB 甚至 更 大 ,有 的 文件 则 
较 小 。 如 何 处 理 这 些 数据 ,把 它们 输入 MapReduce 处 理 框 架 中 进行 处 理 呢 ? 就 涉及 数据 的 
输入 输出 问题 。 
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InputFormat 抽象 类 为 MapReduce 作业 描述 输入 的 细节 规范 ,包括 形式 和 格式 。 
MapReduce 框架 根据 作业 的 InputFormat 开展 以 下 工作 。 
。 从 作业 数据 输入 的 形式 和 格式 两 个 方面 检查 作业 输入 的 有 效 性 。 
。 把 输入 文件 切 分 成 多 个 逻辑 上 的 InputSplit 实例 ,并 把 每 一 实例 分 别 分 发 给 一 个 
Mapper。 
* 提供 RecordReader 的 实现 ,这 个 RecordReader 从 逻辑 InputSplit 中 获得 输入 记录 ， 
并 将 这 些 记录 交 由 Mapper 处 理 。 
InputFormat 是 一 个 抽象 类 ,位 于 org. apache. hadoop. mapreduce. InputFormat <K, V>, 
该 抽象 类 有 两 个 抽象 方法 : 
abstract RecordReader < K, V > createRecordReader (InputSplit split, TaskAttempt- Context 
context) throws IOException, InterruptedException; 
abstract List < InputSplit > getSplits (JobContext context ) throws IOException, 
InterruptedException; 
createRecordReader( ) 方 法 为 指定 的 Split 创建 一 个 能 读 取 分 片 的 RecordReader, 
getSplits() 方 法 将 被 JobClient 调用 ,由 输入 文件 计算 得 出 InputSplit 列表 ,JobTracker 根 
据 列 表 确 定 Mapper 数量 、 分 配 Mapper 与 InputSplit 的 工作 。 
InputFormat 类 的 层次 关系 如 图 5-12 所 示 。 


CombineFile 
InputFormat<K,V> 


KeyValueText 
InputFormat 


SequenceFileAs 
BinaryInputFormat 


InputFormat<K,V> |= FilelnputFormat-K, V^ -—1—] — NLineInputFormat 


SequenceFile SequenceFileAs 
InputFormat<K,V> TextInputFormat 


Delegating 
| | InputFormat-K, V 


SequenceFile 


TextInputFormat InputFilter-K, V> 
DataDrivenDB OracleDataDrivenDB 
DBinputForitateT» InputFormat<T> InputFormat<T> 


图 5-12 InputFormat 类 层次 关系 


InputFormat 类 有 三 个 子 类 : FilelnputFormat, DelegatingInputFormat , DBInputFormat , 其 
中 FileInputFormat 类 是 所 有 与 文件 操作 有 关 的 类 的 父 类 , 子 类 可 以 从 该 类 继承 功能 和 属 
性 ,用 户 可 以 使 用 该 类 的 方法 设置 /获得 文件 路 经、 指定 /获得 分 块 的 大 小 , 如 : 
getMaxSplitSize(JobContext context) 获 取 分 块 的 最 大 大 小 ;addInputPaths(Job job. String 
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commaSeparatedPaths) 48  & 7 F3 4 [8 89 BK s addInputPath(Job job, Path path) 添 加 
一 个 MapReduce 任务 列表 的 路 径 等 。 

DBlInputFormat <T> ftf TM SQL 表 读 取 数 据 的 功能 , 它 返 回 的 表 中 的 记录 号 作 
为 键 值 ,DBWritables 作为 值 。 该 类 通过 setInput() 方 法 设置 查询 条 件 ,OracleDataDriven- 
DBInputFormat 二 TT 二 是 专门 设计 用 于 Oracle 数据 库 的 类 。 
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TextInputFormat 类 是 FileInputFormat 类 多 个 子 类 中 的 一 个 ,是 FileInputFormat 类 
默认 的 输入 类 , 它 将 HDFS 中 的 文本 文件 分 块 送 入 Mapper, 该 类 逐 行 读 入 , 键 值 为 这 行文 
本 在 文件 中 的 字符 偏 移 量 , 行 中 的 文本 为 键 值 。 该 类 使 用 LineRecordReader 读 取 文本 行 的 
数据 。 

KeyValueTextInputFormat 类 也 是 逐 行 读 文本 行 , 并 且 寻 找 文本 行 中 第 一 个 Tab 分 割 
符 ( 即 \t 制 表 符 ) ,分 割 符 前 的 内 容 作 键 值 ,分 割 符 后 直到 行 结 尾 所 有 的 内 容 都 作为 值 。 该 
类 的 RecordReader 是 KeyValueLineRecordReader, 当 把 一 个 MapReduce 的 作业 输出 作为 
下 一 个 作业 的 输入 时 ,比较 好 ,因为 两 个 任务 之 间 就 是 用 KeyValueInputFormat 格式 传输 
数据 的 。 

SequenceFileInputFormat<K,V 二 类 以 二 进 制 序列 文件 作为 MapReduce 的 输入 , 它 可 
以 读 取 和 处 理 的 二 进 制 文件 包括 图 片 视频、 音频 等 ,具体 的 输入 键 值 及 格式 需要 用 户 自己 
定义 , 它 的 RecordReader 为 SequenceFileRecordReader。 序 列 文件 通常 是 块 压缩 的 ,许多 
种 数据 类 型 都 可 以 进行 序列 化 和 反 序 列 化 ,采用 序列 化 文件 作为 一 个 MapReduce 作业 到 另 
一 个 作业 的 中 间 数 据 是 非常 高 效 的 。 

CombineFileInputFormat<K,V 二 类 是 针对 小 文件 设计 的 , 它 把 许多 小 文件 包含 在 一 
个 InputSplit 中 ,这 样 一 个 Mapper 就 需要 处 理 许多 个 小 文件 。 
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数据 分 块 InputSplit 是 Hadoop MapReduce 框架 的 基础 类 ,一 个 InputSplit 对 应 着 一 
个 Mapper 的 输入 , 即 作 业 的 Mapper 数量 是 由 InputSplit 的 数量 决定 的 。InputSplit 的 类 
型 不 是 由 用 户 自 由 选择 的 ,在 设置 InputFormat 类 型 时 就 决定 了 InputSplit 的 类 型 。 它 位 
于 org. apache. hadoop. mapreduce. InputSplit ,是 一 个 抽象 基础 类 ,该 类 下 提供 了 两 个 抽象 
方法 : 


public abstract long getLength () 7 
public abstract String[] getLocations (); 


getLength() 方 法 返回 数据 分 块 的 长 度 ,getLocations() 方 法 返回 数据 分 块 的 位 置 列 表 。 
JobTracker 根据 这 两 个 方法 的 返回 值 ,以 及 Task Tracker 通过 心跳 信息 返 给 JobTracker 的 
Map Slot 的 可 用 情况 ,选择 合适 的 调度 策略 为 TaskTracker 分 配 Map 任务 ,使 Map 计算 尽 
可 能 地 在 数据 的 “本 地 ”进行 。 

InputSplit 的 子 类 提供 了 一 些 方法 用 于 获得 文件 分 块 的 一 些 属性 ,如 : getPath() 返 回 
文件 分 块 的 路 径 ,getStart() 返 回 将 要 处 理 的 文件 第 一 个 字 节 的 位 置 。 
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在 Map 阶段 ,Map() PA ŽAR Bi Hb M ic di ot e h BE ORC ie se JE d CH ie e HE EOS 
二 键 - 值 过 对 的 形式 ,在 这 一 过 程 中 ,就 涉及 RecordReader 类 , 它 主要 负责 数据 记录 的 读 入 。 
RecordReader [E] InputSplit 一 样 ,用 户 不 能 随意 选择 RecordReader 的 类 型 ,因为 选 定 
InputFormat 的 类 型 ,RecordReader 的 类 型 也 就 选 定 了 。 如 : TextInputFormat 格式 对 应 的 
RecordReader 为 LineRecordReader,KeyValueTextInputFormat 格式 对 应 的 RecordReader 
为 KeyValueLineRecordReader。 

RecordReader 是 一 个 抽象 类 , 它 定义 了 若干 抽象 方法 如 下 。 

close() : 关闭 RecordReaer。 

createKey O : 创建 一 个 适当 的 对 象 作为 键 。 

createValue(): 创建 一 个 适当 的 对 象 作为 值 。 

getPos(): 返回 输入 的 当前 位 置 。 

getProgressO : 返回 RecordReader 已 经 消费 了 多 少数 据 输入 。 

next(K key, V value): 从 数据 输入 中 读 和 人 下 一 个 去 键 - 值 二 对。 

在 Mapper 的 run() 方 法 中 会 循环 调用 context 对 象 的 nextKeyValue() ,getCurrentKey()， 
getCurrentValue() 等 方法 ,而 这 些 方法 都 是 对 RecordReader 对 应 方法 的 封装 。 因 此 ,在 输 
入 数据 分 块 上 会 重复 调用 RecordReader, 直 到 整个 输入 的 数据 分 块 被 处 理 完毕 为 止 。 

Hadoop 中 常用 的 内 置 RecordReader 类 是 这 样 的 : LineRecordReader 对 应 
TextInputFormat 类 , H F iE Jk X AR X ft AY fi; KeyValueLineRecordReader 对 应 
KeyValueTextInputFormt 类 , 读 取 行 并 将 其 解释 为 键 值 对 ;SequenceFileRecordReader Xf 
应 SequenceFileFormat 类 ,用 户 自 定义 的 格式 ,产生 键 值 。 
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Mapper 类 是 Hadoop 中 的 一 个 抽象 类 ,程序 员 可 以 继承 这 个 基 类 并 实现 其 中 的 接口 和 
函数 , 它 位 于 org. apache. hadoop. mapreduce. Mapper< KEYIN. VALUEIN, KEYOUT, 
VALUEOUT> ,实现 对 大 数据 记录 的 重复 处 理 。Mapper 类 有 以 下 方法 。 

setup(Mapper. Context context) 在 任务 开始 时 调用 , 仅 执行 一 次 。 用 于 用 户 程序 需要 
做 的 一 些 初 始 化 工作 ,如 创建 一 个 全 局 数据 结构 ,打开 一 个 全 局 文件 ,或 者 建立 数据 库 连 
接 等 。 

map(KEYIN key. VALUEIN value. Mapper. Context context): 对 输入 的 数据 分 块 
每 个 键 值 对 调用 一 次 。 

cleanup(Mapper. Context context): 在 任务 结束 时 调用 一 次 。 一 般 用 于 关闭 文件 ,或 
执行 map() 后 键 值 对 的 分 发 。 

run(Mapper. Context context): 专家 级 用 户 可 以 覆 写 这 个 方法 ,用 于 更 完全 地 控制 
Mapper 的 执行 。 

map() 方 法 的 编程 。 

map() 方 法 的 详细 定义 是 这 样 的 : 


protected void map (KEYIN key, 
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tá. VALUEIN value, 
Mapper.Context context) 

throws IOException, InterruptedException 


map() 方 法 的 输入 参数 中 key 为 传人 map() 方 法 的 键 值 ,value 是 传人 map() 方 法 的 与 
键 值 对 应 的 值 ,context 是 环境 对 象 参数 , 供 程序 访问 的 环境 对 象 。 

在 MapReduce 框架 下 每 个 由 作业 的 InputFormat 产生 的 InputSplit 将 对 应 生成 一 个 
Map 任务 ,Map 任务 中 最 重要 的 是 map() 方 法 , 它 对 输入 的 键 值 对 进行 处 理 , 经 过 处 理 后 生 
成 新 的 键 值 对 作为 中 间 值 。 例 如 : 


public class WordMapper extends Mapper< Object, Text, Text, IntWritable>{ 
private final static IntWritable one- new IntWritable (1); 
private Text word- new Text (); 
public void map (Object key, Text value, Context context) 
throws IOException ( 
String line-value.toString(); 
StringTokenizer tokenizer- new StringTokenizer (line); 
while (tokenizer.hasMoreTokens()) { 
word.set (tokenizer .nextToken ()) ; // 将 下 一 个 关键 字 作业 键 值 
context .write (word, one); // 把 < 关键 字 , 词 频 > 这 个 键 值 对 作为 中 间 值 输出 


} 
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由 map() 方 法 生成 的 键 值 对 二 key2,value2 二 作为 中 间 值 经 过 Combiner, Sort 后 ,将 要 
进行 合并 和 处 理 , 最 后 使 用 Reducer 类 对 其 进行 处 理 , 生 成 新 的 键 值 对 二 key3, value3 二 作 
为 结果 。 这 时 就 要 用 到 Reducer 类 。 

Reducer 类 定义 在 org. apache. hadoop. mapreduce. Reducer< KEYIN. VALUEIN , KEYOUT, 
VALUEOUT>. 

Reducer 有 三 个 主要 的 阶段 。 

(1) Shuffle BF BE: Reducer 通过 网 络 使 用 HTTP 方式 从 Mapper 类 复制 排 完 序 的 
数据 。 

(2) Sort 阶段 : 因为 不 同 的 Mapper 可 能 输出 相同 的 键 值 ,框架 根据 键 值 Key 进行 合并 
和 排序 ;当中 间 值 被 取 回 后 ,shuffle 和 sort 会 同时 发 生 。 

(3) Reduce 阶段 : 在 这 一 阶段 ,reduce(Object,Iterable,Context) 方 法 被 调用 对 每 个 排 好 序 
的 二 key, (collection of values) > HE Ak M , reduce 方法 的 输出 通过 TaskInputOutputContext. 
write(Object,Object) 写 人 RecordWriter. Reducer 的 输出 是 没有 排序 的 。 

Reducer 类 有 以 下 方法 : 


protected void setup (Reducer.Context context) 

protected void reduce (KEYIN key, Iterable< VALUEIN» values, Reducer.Context context) 
protected void cleanup (Reducer.Context context) 

public void run (Reducer.Context context) 
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在 初始 化 Reducer 实例 时 ,调用 一 次 setup() 方 法 , 它 将 完成 一 些 应 用 程序 需要 的 初始 
化 工作 ;Reducer 实例 完成 后 ,会 调用 一 次 cleanup() 方 法 ,完成 应 用 程序 需要 的 清理 工作 。 
reduce() 方 法 的 输入 参数 key 是 传 给 reduce() 方 法 的 键 值 , values 是 键 值 key 对 应 的 
value 列表 ,context 是 环境 对 象 参 数 , 供 程序 访问 环境 对 象 。 
以 下 是 WordCount 的 Reducer 类 的 样本 代码 : 
public class IntSumReducer extends Reducer { 
private IntWritable result- new IntWritable(); 
public void reduce (Key key, Iterable values,Context context)throws IOException { 
int sum-0; 
for(IntWritable val: values) ( 
sum -val.get(); // 把 value 列表 值 汇总 到 sum 变 量 中 
) 
result.set (sum) ; 
context.collect (key, result); / A8 « key, sum> 键 值 对 输出 


) 
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Reducer 类 处 理 完 数据 后 , 需要 把 处 理 结 果 输 出 ,以 供用 户 使 用 。 抽象 类 
OutputFormat 就 是 用 于 描述 MapReduce 任务 输出 的 。 

(1) 使 任务 的 输出 描述 合法 化 ,例如 ,检查 输出 目录 是 否 存 在 。 

(2) 提供 RecordWriter 应 用 ,把 任务 的 输出 文件 写 出 到 文件 系统 中 。 

OutputFormat 类 提供 了 以 下 几 个 方法 : getRecordWriter (TaskAttemptContext 
context) 方 法 返回 给 定 任务 的 Record Writer; checkOutputSpecs(JobContext context) 方 法 
检查 任务 的 输出 规格 是 否 合法 ,如 检查 输出 是 否 存 在 , 若 存 在 可 能 被 覆盖 ;getOutputCommitter 
(TaskAttemptContext context) 方 法 用 来 确保 输出 被 正确 地 提交 。 

当然 ,用 户 可 以 基于 抽象 的 输出 格式 类 OutputFormat 和 抽象 的 RecordWriter 类 进行 
重新 定制 ,这 时 就 需要 实现 OutputFormat 类 的 getRecordWriter ( ) 方 法 。 若 要 基于 
OutputFormat 类 内 置 的 RecordWriter 类 进行 定制 ,这 时 就 需要 重 载 OutputFormat 类 的 
getOutputWriter() 方 法 以 获得 新 的 RecordW riter。 

OutputFormat 类 是 MapReduce 输出 的 基 类 ,位 于 http://hadoop. apache. org/docs/ 
rl. 2. 1/api/org/ apache/hadoop/mapreduce/OutputFormat. html, 所 有 的 MapReduce 输出 
都 实现 了 OutputFormat 接口 ,OutputFormat 类 的 层次 关系 如 图 5-13 所 示 。 

FileOutputFormat<K,.V 二 输出 到 文件 ,这 是 默认 的 输出 格式 。 

DBOutputFormat<K,V 二 输出 到 数据 库 , 如 MySQL Oracle 等 。 

FilterOutputFormat<K,V 二 对 输出 结果 进行 过 滤 。 

NullOutputFormat<K.V 二 不 输出 任何 结果 。 
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要 把 输出 数据 写 和 人 HDFS, 就 用 到 了 FileOutputFormat 类 ,从 图 5-13 可 以 看 出 


(mm 


....| SequenceFileOutput SequenceFileAsBinary 
FileOutput | | | Format-K, V^ OutputFormat 


OutputFormat<K,V> | 一 


Format<K,V> 


TextOutput 
Format<K,V> 


DBOutput 
Format<K,V> 
| | FilterOutput LazyOutput 
Format<K,V> Format<K,V> 
NullOutput 


Format<K,V> 


5-13 OutputFormat 类 的 层次 关系 


FileOutputFormat 类 下 有 TextOutputFormat < K, V > Æ f SequenceFileOutputFormat 
<K,V>X, 
TextOutputFormat<K , V 2€ J& RUA f fj hi Fita BE AR i oe Jg — £3 CAS EL key 与 
值 value 之 间 用 Tab 隔 开 ,分 割 符 也 可 以 通过 mapred. textoutputformat. separator 属性 设 
置 。TextOutputFormat 的 输出 格式 也 可 以 被 KeyValueTextInputFormat 接受 。 
SequenceFileOutputFormat<K ,V 二 类 将 输出 写 为 二 进 制 顺序 文件 , 因 其 结构 紧凑 容 
易 压 缩 ,所 以 该 种 输出 方式 通常 作为 后 续 MapReduce 任务 的 输入 。 
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对 文件 输出 格式 ,通常 有 一 个 对 应 的 记录 输出 类 RecordWriter, 由 RecordWriter 类 具 
体 决 定 输出 的 格式 。RecordWriter 是 一 个 抽象 类 ,位 于 org. apache. hadoop. mapreduce. 
RecordWriter<K,V 二 , 它 把 键 值 对 输出 到 一 个 输出 文件 。RecordWriter 类 下 有 抽象 方法 
writeCK key. V value) 实 现 键 值 对 的 输出 ,抽象 方法 close(TaskAttemptContext context) 实 
现 键 值 对 的 关闭 RecordWriter。 

RecordWriter 类 下 有 DBOutputFormat. DBRecordWriter, FilterOutputFormat. 
FilterRecordWriter, TextOutputFormat. LineRecordWriter 三 个 子 类 。 内 置 的 RecordWriter 类 
如 下 列 所 示 。 

DBOutputFormat 类 对 应 DBRecordWriter, 把 结果 写 入 数据 库 中 。 

FilterOutputFormat 类 对 应 FilterRecordWriter, 把 过 滤 过 的 数据 输出 文件 中 。 

TextOutputFormat 类 对 应 LineRecordWriter, 把 键 十 Nt 十 值 输出 文本 文件 中 。 

当然 ,用 户 也 可 以 通过 定制 RecordWriter 自 定 义 输出 格式 。 


5.8 MapReduce 应 用 开发 


前 面 已 经 介绍 了 MapReduce 模型 的 工作 原理 ,Shuffle 和 Sort 过 程 、 任 务 的 执行 .故障 
处 理 、 作 业 的 调度 等 内 容 , 为 编写 MapReduce 应 用 程序 打下 了 应 有 的 基础 ,下 面 将 结合 实例 
介绍 MapReduce 应 用 程序 设计 开发 的 模式 ,并 给 出 关键 代码 。 
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cal 计数 类 应 用 


应 用 需求 : 在 5.1 节 中 介绍 了 WordCount 实例 作为 MapReduce 模式 下 编程 的 示例 程 
FF ,通过 这 个 程序 初步 理解 了 MapReduce 程序 的 结构 及 执行 过 程 。 实 际 上 计数 是 大 数据 处 
理 中 比较 常见 的 一 种 应 用 场景 ,这 类 应 用 的 数据 文件 中 包括 大 量 的 记录 ,每 条 记录 中 包含 某 
类 事物 的 若干 属性 ,在 实际 应 用 中 需要 根据 这 类 事物 的 某 个 属性 进行 数值 计算 ,如 求 和 、 平 
均值 等 。 

应 用 场景 : 这 样 的 应 用 场景 有 从 话 单 中 分 析 话 费 统计 流量 统计 以 及 联系 人 之 间 通 话 频 
次 的 统计 ;对 log 文件 进行 分 析 , 每 条 记录 都 包含 一 个 响应 时 间 ,需要 计算 出 平均 响应 时 间 。 

解决 方案 : 针对 这 类 应 用 ,在 Map 函数 中 提取 每 条 记录 中 这 类 事物 的 特定 属性 值 ,在 
Reduce 函数 中 对 所 有 相同 的 事物 属性 值 按照 函数 表达 式 进行 运算 。 

应 用 案例 : WordCount 就 是 经 典 的 计数 类 应 用 中 的 求 和 案例 ,下 面 通过 另 一 案例 讲解 
求 平均 值 的 方法 。 现 有 一 个 班级 中 有 Rose、Andy、Tom、John、Michelle.Amy、Kim 等 同学 ， 
学 习 了 English, Math, Chinese 三 门 课程 ,一 门 课 程 是 一 个 文本 文件 ,通过 运算 求 每 个 同学 
的 平均 成 绩 。 文 件 内 容 如 下 。 


English. txt: Math. txt: Chinese. txt: 
Rose 91 Rose 83 Rose 85 
Andy 87 Andy 93 Andy 84 
Tom 78 Tom 67 Tom 85 
John 94 John 92 John 77 
Michelle 74 Michelle 82 Michelle 93 
Amy 67 Amy 85 Amy 94 
Kim 71 Kim 80 Kim 83 
执行 准备 : 


(1) 通过 Eclipse 下 面 的 DFS Locations 在 /user/hadoop 目录 右 击 选择 Create new 
directory 菜单 命令 创建 average_in 文件 夹 用 于 存放 输入 文件 ,如 图 5-14 所 示 。 

(2) 然后 在 本 地 建立 三 个 txt 文件 ,在 Eclipse 的 DFS Locations 下 面 的 /user/hadoop/ 
average in 目录 下 , 右 击 选择 Upload files to DFS, 把 本 地 的 三 个 txt 文件 上 传 到 /user/ 
hadoop/average_in 目录 下 ,如 图 5-15 所 示 。 


[im DFS Locations B 


4 M hadoopi.2.1 import org apache hadoop.c 4 国 DFS Locations 
eo import org apache. hadoop fs. 4 M hadoop12.1 
> G home (1) import org apache hadoop io 4eo 
€ d import org apache hadoop.io ] . 
g aa impost org apache hadoop io. > & home (1) 
^ Bede = 4 © user (3) 
> G4 its Download from DFS... 
| jir 4 @ hadoop (4) 
> GCS Create new directory... j Kui 
Eis Upload files to DFS... b © archiveDir (1) 
Bw Upload directory to DFS... 4 © average in (3) 
^a B Chinese.txt (80.0 b, r3) 
P ds B Englist.txt (80.0 b, r3) 
ax [B Math.txt (80.0 b, r3) 


图 5-14 Æ average in 文件 夹 5-15 上 传 三 个 文件 到 DFS 中 


(0 GW gis 


di (3) Æ Eclipse 下面 的 Project Explorer 中 右 击 Average 类 ,选择 Run as— Run on 
Hadoop. 


AFE: average out 不 需要 创建 , 若 average out 存在 ,程序 运行 时 将 出 错 。 


(4) 在 Eclipse 的 DFS location 下 面 找到 /user/hadoop/average_out 目录 下 的 part-r- 
00000(57.0b,r3) ,双击 它 , 即 可 看 到 程序 的 输出 结果 ,如 图 5-16 所 示 。 


[is Project Explorer Sn 
国 DFS Locations 


© user (3) 
© hadoop (5) 
© archiveDir (1) 
© average in (3) 
& average out (3) 
© Jogs (1) 


图 5-16 在 Eclipse 中 查看 程序 运行 结果 


也 可 以 在 secureCRT 软件 中 ,通过 命令 查看 运行 结果 ,命令 是 ， 


hadoop@ master:~$hadoop fs -cat average out/* 


Amy 82 
Andy 88 
John 87 
Kim 78 
Michelle 83 
Rose 86 
Tom 76 
程序 代码 : 


package org.myorg; 

import java.io.IOException; 
import java.util.Iterator; 

import java.util.StringTokenizer; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class Average{ 
public static class AverageMap extends 
Mapper< LongWritable, Text, Text, IntWritable> { 
// 实 现 map 函数 
public void map (LongWritable key, Text value, Context context) 

throws IOException, InterruptedException ( 

String line-value.toString(); 

// 将 输入 的 纯 文 本 文件 的 数据 转化 成 String 

StringTokenizer tokenizerArticle- new StringTokenizer (line, "\n"); 

// 将 输入 的 数据 首先 按 行 进行 分 割 

// 分 别 对 每 一 行进 行 处 理 

while (tokenizerArticle.hasMoreElements()) { 
StringTokenizer tokenizerLine 
=new StringTokenizer (tokenizerArticle.nextToken ()); 
// 每 行 按 空格 划分 
String strName=tokenizerLine.nextToken (); 
// 学 生 姓名 部 分 
String strScore=tokenizerLine.nextToken () ; 
// 成 绩 部 分 
Text name- new Text (strName) 7 
int scoreInt- Integer.parseInt (strScore); 


context.write (name, new IntWritable (scoreInt)); 


// 输 出 姓名 和 成 绩 


public static class AverageReduce extends 
Reducer< Text, IntWritable, Text, IntWritable> ( // 实 现 reduce 函数 
public void reduce (Text key, Iterable< IntWritable>values, 
Context context) throws IOException, InterruptedException { 
int sum=0; 
int count-0; 
Iterator« IntWritable» iterator- values.iterator(); 
while (iterator.hasNext()) { 


sum+=iterator.next () .get (); // 计 算 总 分 
count+ +; // 统 计 总 的 科目 数 
int average= (int) sum / count; // 计 算 平 均 成 绩 


context.write (key, new IntWritable (average)); 


public static void main(String[] args) throws Exception ( 
Configuration conf- new Configuration(); 
conf.set ("mapred.job.tracker", "192.168.1.10:9001"); // 这 句 话 很 关键 
String[] ioArgs=new String[] ( "average in", "average out" }; 
String[] otherArgs-new GenericOptionsParser (conf, ioArgs) .getRemainingArgs () ; 
if (otherArgs.len 1-2) { 
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System.err.println("Usage: Score Average« in» « out» "); 
System.exit (2); 


final FileSystem fileSystem- FileSystem.get (conf); 
fileSystem.delete (new Path (otherArgs[1]), true); 
// 删 除 MapReduce 输出 目录 


Job job= new Job (conf, "Score Average"); 
job.setJarByClass (Average.class); 


job.setMapperClass (AverageMap.class); 

// 设 置 Mapper 处 理 类 

job.setCombinerClass (AverageReduce.class); 
// 设 置 Combiner 处 理 类 

job.setReducerClass (AverageReduce.class); 
// 设 置 Reducer 处 理 类 


job.setOutputKeyClass (Text.class)7 

// 设 置 输出 的 Key 的 类 型 
job.setOutputValueClass (IntWritable.class); 
// 设 置 输出 的 Value 的 类 型 


job.setInputFormatClass (TextInputFormat.class); 
// 将 输入 的 数据 集 分 割 成 小 数据 块 splites, 提 供 一 个 RecordReder 的 实现 


job.setOutputFormatClass (TextOutputFormat.class); 
// 提 供 一 个 RecordWriter 的 实现 ,负责 数据 输出 


FileInputFormat.addInputPath (job, new Path (otherArgs[0])); 
// 设 置 输入 目录 

FileOutputFormat.setOutputPath (job, new Path (otherRrgs [1])) 
// 设 置 输出 目录 

System.exit (job.waitForCompletion (true) ? 0: 1); 


) 


程序 分 析 : 求 平均 成 绩 是 WordCount 的 变形 ,程序 也 分 为 三 个 部 分 : Mapper 2S, Reducer 
类 和 MapReduce 驱动 。InputFormat 对 数据 集 进行 切 分 , 切 分 成 小 数据 集 InputSplit ,每 个 
InputSplit 由 一 个 Mapper 负责 处 理 。InputFormat 中 还 有 一 个 RecordReader 的 实现 , 它 将 
一 个 InputSplit ff Jr JÀK — key value>* FF HERE map 函数 处 理 ,InputFormat 的 默认 值 是 
TextInputFormat, 它 针对 文本 文件 , 按 行将 文本 切割 成 InputSplit, 并 用 LineRecordReader 
将 InputSplit fif fr — key., value> . key 是 行 在 文本 中 的 位 置 ,value 是 文件 中 的 一 行 。 

Mapper 最 终 处 理 的 结果 对 二 key,value ,通过 Partitioner 分 发 到 Reducer 进行 合并 ， 
合并 时 有 相同 key 的 二 键 - 值 二 > 对 送 到 同一 个 Reducer E. Reducer 是 所 有 用 户 定制 
Reducer 类 的 基础 , 它 的 输入 是 key 和 这 个 key 对 应 的 所 有 value 的 一 个 迭代 器 ,同时 还 有 
Reducer 的 上 下 文 。Reduce 的 结果 由 Reducer. Context 的 write 方法 输出 到 文件 中 。 


nne 去 重 计 数 类 应 用 


应 用 需求 : 在 大 数据 文件 中 包含 了 大 量 的 记录 ,每 条 记录 记载 了 某 事物 的 一 些 属 性 , 需 
要 根据 某 几 个 属性 的 组 合 ,去 除 相 同 的 重复 组 合 , 并 统计 其 中 某 属 性 的 统计 值 。 

应 用 场景 : 在 大 数据 集中 统计 数据 种 类 的 个 数 ; 在 网 站 日 志 分 析 中 统计 访问 地 ,或 者 统 
计 网 站 不 同 访问 者 的 访问 次 数 ; 话 单 中 分 析 手 机 号 码 及 拨打 的 号 码 或 访问 的 网 络 ; 重 复数 据 
删除 等 。 这 些 应 用 场景 都 经 常 使 用 存储 数据 缩减 技术 , 即 数据 去 重 。 

解决 方案 : 在 此 类 应 用 中 ,将 计算 过 程 分 为 两 个 步骤 。 第 一 步 ,map 函数 将 每 条 记录 中 
需要 关注 的 属性 组 合作 为 关键 字 ,将 空 字符 串 作为 值 , 生 成 的 过 键 - 值 过 对 作为 中 间 值 输出 。 
第 二 步 ,reduce 函数 则 将 输入 的 中 间 结 果 的 键 值 作 为 新 的 键 值 ,Value 值 仍然 取 空 字符 串 ， 
输出 结果 。 因 为 所 有 键 值 相同 的 key 都 被 送 到 了 同一 reducer, ffl reducer 只 输出 了 一 个 键 
值 ,这 一 过 程 实际 上 就 是 去 重 的 过 程 。 

应 用 案例 : 有 以 下 两 个 文件 ,文件 中 表示 某 天 , 某 IP 访问 了 系统 这 样 一 个 日 志 。 当 时 
间 和 IP 相同 时 ,将 这 种 相同 的 数据 去 掉 , 只 留 下 一 个 。 


logl. txt: log2. txt 

2014-10-3 10. 3. 5. 19 2014-10-3 10. 3. 5. 19 
2014-10-3 10. 3. 5. 19 2014-10-4 10. 3. 5. 19 
2014-10-3 10. 3. 5. 18 2014-10-3 10. 3. 5. 18 
2014-10-3 10. 3. 51. 19 2014-10-5 10. 3. 51. 19 
2014-10-3 10. 3. 2. 19 2014-10-4 10. 3. 2. 5 
2014-10-4 10. 3.2. 5 2014-10-5 10. 3. 2. 19 
2014-10-4 10. 3. 2. 18 


执行 准备 : 

OD 5 5.7. 1 小节 类 似 ,通过 Eclipse 下 面 的 DFS Locations 在 /user/hadoop 目录 下 ， 
创建 dedup_in 文件 夹 用 于 存放 输入 文件 。 

(2) 然后 在 本 地 建立 两 个 文件 logl. txt 和 log2. txt, Æ Eclipse 中 把 上 述 两 个 文件 上 传 
到 /user/hadoop/ dedup in 目录 下 。 

(3) 运行 Dedup. java 程序 ,程序 运行 结果 如 下 : 

2014- 10- 3 10.3.2.19 

2014- 10- 3 10.3.5.18 

2014- 10- 3 10.3.5.19 

2014- 10- 3 10.3.51.19 

2014- 10- 4 10.3.2.18 

2014-10- 4 10.3.2.5 

2014- 10- 4 10.3.5.19 


2014- 10- 5 10.3.2.19 
2014- 10- 5 10.3.51.19 


程序 代码 : 


package org.myorg; 


(0 CER tue nom 


import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce .Mapper; 

import org.apache .hadoop.mapreduce .Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class Uniq ( 
/ [map 将 输入 中 的 value 复制 到 输出 数据 的 key 上 ,并 直接 输出 
public static class UnigMap extends Mapper< Object, Text, Text, Text» { 
private static Text line- new Text () ; // 每 行 数据 


// 实 现 map 函数 
public void map (Object key, Text value,Context context) 
throws IOException, InterruptedException( 

line-value; 

context.write (line, new Text ("")); 


//reduce 将 输入 中 的 key 复 制 到 输出 数据 的 key 上 ,并 直接 输出 
public static class UniqReduce extends Reducer< Text, Text, Text, Text> { 
// 实 现 reduce 函数 
public void reduce (Text key, Iterable< Text> values,Context context) 
throws IOException, InterruptedException( 
context.write (key, new Text ("")); 


public static void main(String[] args) throws Exception( 

Configuration conf- new Configuration (); 

conf.set ("mapred.job.tracker", "192.168.1.10:9001"); 

String[] ioArgs-new String[]("dedup in","dedup out"); 

String[] otherArgs- new GenericOptionsParser (conf, ioArgs). 

getRemainingArgs () ; 

if (otherArgs.lem 1-2) { 
System.err.println("Usage: Data Deduplication« in» « out» "); 
System.exit (2); 


final FileSystem fileSystem- FileSystem.get (conf) ; 
fileSystem.delete (new Path (otherArgs[1]), true); 
// 删 除 MapReduce 输 出 目录 


// 这 句 话 很 关键 


Job job- new Job (conf, "Data Deduplication"); 
job.setJarByClass (Uniq.class); 


job.setMapperClass (UnigMap.class); // 设 置 Map 处 理 类 

job.setCombinerClass (UnigReduce.class); // 设 置 Combine 处 理 类 

job.setReducerClass (UnigReduce.class) ; // 设 置 Reduce 处 理 类 
job.setOutputKeyClass (Text.class); // 设 置 输出 Key 类 型 
job.setOutputValueClass (Text.class); // 设 置 输出 Value 类 型 

FileInputFormat .addInputPath (job, new Path (otherRrgs [0])); // 设 置 输入 目录 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); // 设 置 输出 目录 


System.exit (job.waitForCompletion(true) ? 0: 1); 
} 

H 

程序 分 析 : 数据 去 重 是 MapReduce 框架 中 最 基本 的 应 用 , 它 的 目标 是 让 原始 数据 中 出 
现 次 数 超过 一 次 的 数据 在 输出 文件 中 只 出 现 一 次 。 因 此 ,自然 而 然 会 想到 将 同一 个 数据 的 
所 有 记录 都 交 给 一 台 reduce 机 器 ,无 论 这 个 数据 出 现 多 少 次 ,只 要 在 最 终结 果 中 输出 一 次 
就 可 以 了 。 具 体 就 是 reduce 的 输入 应 该 以 数据 作为 key. MX} value-list 则 没有 要 求 。 当 
reduce 收 到 一 个 二 key,value-list 二 时 就 直接 将 key 复制 到 输出 的 key 中 ,并 将 value 设置 成 
空 值 。 

在 MapReduce 流程 中 , map 的 输出 二 key, value Z& 3k. shuffle 过 程 聚 集成 二 key， 
value-list> JA 2844 reduce。 所 以 从 设计 好 的 reduce 输入 可 以 反 推 出 map 的 输出 key 应 为 
数据 ,value 为 任意 值 。 继 续 反 推 ,map 输出 数据 的 key 为 数据 ,而 在 这 个 实例 中 每 个 数据 代 
表 输 入 文件 中 的 一 行内 容 , 所 以 map 阶段 要 完成 的 任务 就 是 在 采用 Hadoop 默认 的 作业 输 
入 方式 之 后 ,将 LineRecordReader 读 入 的 行内 容 设置 为 key, 并 直接 输出 (输出 中 的 value 
为 任意 值 )。map 中 的 结果 经 过 shuffle 过 程 之 后 交 给 reduce, reduce 阶段 不 会 管 每 个 key 
有 和 多少 个 value, 它 直接 将 输入 的 key 复制 为 输出 的 key, 并 输出 就 可 以 了 (输出 中 的 value 
被 设置 成 空 ) 。 


SAS 简单 排序 类 应 用 


应 用 需求 : 通常 在 数据 文件 中 包含 大 量 的 记录 ,每 条 记录 中 包含 了 这 个 事物 的 某 个 属 
性 ,需要 根据 这 个 属性 对 数据 进行 排序 。 

应 用 场景 : 在 话 单 分 析 中 ,根据 电话 的 拨打 时 间 排 序 ,或 者 对 某 人 每 次 网 络 访问 的 上 行 
和 下 行 流量 , 按 每 个 手机 总 流量 从 大 到 小 排序 后 输出 。 

解决 方案 : map 函数 对 每 条 记录 的 事物 和 属性 按照 特定 的 规则 进行 计算 ,获得 属性 值 ， 
并 以 属性 为 key,value 为 原 数 据 值 reduce 函数 对 同 组 的 排序 值 进 行 排序 后 按 顺序 输出 。 

应 用 案例 : 对 输入 文件 中 数据 进行 排序 。 输 入 文件 中 的 每 行内 容 均 为 一 个 数字 , 即 一 
个 数据 。 要 求 在 输出 中 每 行 有 两 个 间隔 的 数字 ,其 中 ,第 一 个 代表 原始 数据 在 原始 数据 集中 
的 位 次 ,第 二 个 代表 原始 数据 。 
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~~ sortl. txt; sort2, txt: sort3, txt: 
34 675 76 
6 543 349 236 
12 648 2 387 
—45 75 3465 
58 39 —497 
753 6 45 
234 49 629 
859 — 547 
36 32 6 387 
—43 734 
执行 准备 : 


(1) 与 5.7.1 小 节 类 似 , 通 过 Eclipse 下 面 的 DFS Locations TE/user/hadoop 目录 下 ， 
创建 sort_in 文件 夹 用 于 存放 输入 文件 。 

(2) 然后 在 本 地 建立 三 个 文件 sortl. txt、sort2. txt、sort3. txt, Œ Eclipse 中 把 上 述 三 个 
文件 上 传 到 /user/hadoop/sort_in 目录 下 。 

G) 运行 Sort. java 程序 ,程序 运行 结果 如 下 : 


1 —497 11 45 21 648 
2 一 45 12 49 22 675 
3 一 43 13 58 23 734 
4 —7 14 75 24 753 
5 6 15 76 25 859 
6 12 16 234 26 2387 
7 32 17 236 27 3465 
8 34 18 349 28 6387 
9 36 19 547 29 6543 
10 39 20 629 

程序 代码 : 


package org.myorg; 
import java.io.IOException; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class Sort { 
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/ [map 将 输入 中 的 value 化 成 IntWritable 类 型 ,作为 输出 的 key 


public static class Map extends Mapper< Object, Text , IntWritable, IntWritable> { 


private static IntWritable data=new IntWritable(); 


// ll map 函数 


public void map (Object key,Text value,Context context) 


throws IOException, InterruptedException( 
String line-value.toString(); 
data.set (Integer.parseInt (line)) ; 
context.write (data, new IntWritable(1)); 


) 


//reduce 将 输入 中 的 key 复 制 到 输出 数据 的 key 上 ,然后 根据 输入 的 value- list 中 元 素 的 个 数 
决定 key 的 输出 次 数 。 用 全 局 linenum 来 代表 key 的 位 次 


public static class Reduce extends 


Reducer< IntWritable, IntWritable, IntWritable, IntWritable> ( 
private static IntWritable linenum=new IntWritable(1); 


// BR reduce 函数 


public void reduce (IntWritable key, Iterable< IntWritable> values, 


Context context) 


throws IOException, InterruptedException{ 


for (IntWritable val:values) { 
context .write (linenum, key); 


linenum new IntWritable (linenum.get () * 1) ; 


public static void main(String[] args) throws Exception( 


Configuration conf- new Configuration(); 


conf.set ("mapred.job.tracker", "192.168.1.10: 


9001"); 


String[] ioArgs- new String[]("sort in","sort out"); 
String[] otherArgs- new GenericOptionsParser (conf, ioArgs) .getRemainingArgs (); 


if(otherArgs.length !=2) ( 


System.err.println("Usage: Data Sort< in» « out? "); 


System.exit (2); 


final FileSystem fileSystem- FileSystem.get (conf) ; 
fileSystem.delete (new Path (otherArgs[1]), true); 


// 删 除 MapReduce 输出 目录 


Job job- new Job (conf, "Data Sort"); 
job.setJarByClass (Sort.class); 


job.setMapperClass (Map.class); 
job.setReducerClass (Reduce class); 


job.setOutputKeyClass (IntWritable.class); 


// 设 置 Mape 处 理 类 
// 设 置 Reduce 处 理 类 


// 设 置 Key 输 出 类 型 


// 这 句 话 很 关键 
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job.setOutputValueClass (IntWritable.class); // 设 置 Value 输出 类 型 


FileInputFormat.addInputPath (job, new Path (otherArgs[0])); // 设 置 输入 目录 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); // 设 置 输出 目录 
System.exit (job.waitForCompletion (true) ? 0: 1); 

} 

程序 分 析 : 这 个 实例 仅仅 要 求 对 输入 数据 进行 排序 ,熟悉 MapReduce 过 程 的 读者 会 很 
快 想到 在 MapReduce 过 程 中 就 有 排序 ,是 否 可 以 利用 这 个 默认 的 排序 ,而 不 需要 自己 青 实 
现 具体 的 排序 呢 ? 答案 是 肯定 的 。 

但 是 在 使 用 之 前 首先 需要 了 解 它 的 默认 排序 规则 。 它 是 按照 key 值 进行 排序 的 ,如 果 
key 为 封装 int 的 IntWritable 类 型 ,那么 MapReduce 按照 数字 大 小 对 key 排序 ,如 果 key 
为 封装 为 String 的 Text 类 型 ,那么 MapReduce 按照 字典 顺序 对 字符 串 排序 。 本 例 中 有 负 
数 , 因 此 最 好 封装 为 IntWritable。 也 就 是 在 map 中 将 读 入 的 数据 转化 成 IntWritable 型 , 然 
后 作为 key 值 输出 (value 任意 )。reduce 拿 到 一 key,value-list 二 之 后 ,将 输入 的 key 作为 
value 输出 ,并 根据 value-list 中 元 素 的 个 数 决 定 输出 的 次 数 。 输 出 的 key (代码 中 的 
linenum) 是 一 个 全 局 变量 , 它 统计 当前 key 的 位 次 。 需 要 注意 的 是 这 个 程序 中 没有 配置 
Combiner, 也 就 是 在 MapReduce 过 程 中 不 使 用 Combiner。 这 主要 是 因为 使 用 map 和 
reduce 就 已 经 能 够 完成 任务 。 


Sad 倒 排 索引 类 应 用 


应 用 需求 : 通常 在 数据 文件 中 包含 大 量 的 单词 ,每 个 单词 可 能 会 出 现 多 次 ,需要 根据 单 
词 查找 文档 ,这 时 就 需要 用 到 倒 排 索引 。 

应 用 场景 : 在 全 文 检索 系统 或 搜索 引擎 中 ,经 常会 用 到 根据 单词 查找 文档 。 

解决 方案 : 通常 在 Map 过 程 中 ,对 文档 切 分 ,把 单词 设 为 Key, 单 词 出 现 的 次 数 为 
Value, {EJH Combine 函数 对 文档 中 的 词 频 进行 统计 ,然后 输出 到 Reduce. Reduce 函数 以 单 
词 为 Key, 生 成 倒 排 索引 。 

下 面 介 绍 一 下 相关 的 背景 知识 .“ 倒 排 索引 ?主要 是 用 来 存储 某 个 单词 (或 词组 ) 在 一 个 
文档 或 一 组 文档 中 的 存储 位 置 的 映射 , 即 提供 了 一 种 根据 内 容 来 查找 文档 的 方式 。 由 于 不 
是 根据 文档 来 确定 文档 所 包含 的 内 容 , 而 是 进行 相反 的 操作 ,因而 称 为 倒 排 索引 (Inverted 
Index) 。 

通常 情况 下 , 倒 排 索引 由 一 个 单词 (或 词组 ) 以 及 相关 的 文档 列表 组 成 ,文档 列表 中 的 文 
档 或 者 是 标识 文档 的 ID 号 ,或 者 是 指 文档 所 在 位 置 的 URL, 如 图 5-17 所 示 。 

在 实际 应 用 中 文档 通常 带 有 权重 , 即 记录 单词 在 文档 中 出 现 的 次 数 。 以 英文 为 例 ,如 
图 5-18 所 示 ,索引 文件 中 的 MapReduce 一 行 表示 : MapReduce 这 个 单词 在 文本 DO 中 出 现 
过 1 次 ,Tl 中 出 现 过 1 次 ,D2 中 出 现 过 2 次 。 当 搜索 条 件 为 MapReduce,is, Simple 时 ,对 
应 的 集合 为 : (DO.D1.D2}M{DO.D1}M {Do} = {D0}, MXi Do 包含 了 所 要 索引 的 单词 ， 
而 且 是 连续 的 。 

在 实际 的 搜索 引擎 应 用 中 ,除了 考虑 词 频 外 ,还 要 考虑 单词 出 现 的 位 置 ,比如 单词 出 现 
在 标题 和 URL 中 就 比 出 现在 正文 中 的 权重 要 高 。 


单词 文档 列表 


单词 1 | 文件 档 2 | 一 | 文件 档 3 | 一文 件 档 10 


单词 2 | 文件 档 1 | 一 | 文件 档 3 | 一 [文件 档 12 


Y 


单词 3 | 文件 档 2 | 一 | 文件 档 4 | 一 | 文 件 档 15 


5-37 倒 排 文档 结构 
单词 文档 列表 


单词 1 | 文件 档 2 | 权 六 | 文件 档 3 | 权 六 一 | 文件 档 10 


单词 2 | 文件 档 1 | 权 [ 王 一 | 文件 档 3 | 权 厂 一 | 文件 档 12 


单词 3 | 文件 档 2 | 权 上 一 | 文件 档 4 | 权 | 一 一 | 文件 档 15 


5-18 带 有 权重 的 倒 排 索引 


应 用 案例 : 现 有 三 个 文本 文档 ,需要 根据 单词 查找 文档 ,并 且 还 要 考虑 权重 问题 。 


Bye D2.txt:1; 

Hello D2.txt:1; 

MapReduce D2.txt:2;Dl.txt:1;DO.txt:1; 
easy DO.txt:1; 

is DO.txt:2;Dl.txt:2; 

powerful Dl.txt:1; 

simple D0.txt:1; 

userful Dl.txt:1; 


执行 准备 : 

DO. txt: 

MapReduce is simple is easy 

D1. txt: 

MapReduce is powerful is userful 
D2. txt: 

Hello MapReduce Bye MapReduce 


程序 代码 : 


package org.myorg; 
import java.io.IOException; 
import java.util.StringTokenizer; 


import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.mapreduce.Job; 
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import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.FileSplit; 

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class InvertedIndex ( 
public static class Map extends Mapper< Object, Text, Text, Text» { 


private Text keyInfo=new Text () ; // 存 储 单词 和 URL A 
private Text valueInfo=new Text () 7 // 存 储 词 频 

private FileSplit split; // 存 储 Split 对 象 

// 实 现 map 函数 


public void map (Object key, Text value, Context context) 

throws IOException, InterruptedException ( 

/ [kf « key, value» Xt Br JA If) Filesplit WR 

split= (FileSplit) context.getInputSplit () ; 

StringTokenizer itr- new StringTokenizer (value.toString()); 

while (itr.hasMoreTokens ()) ( 
// 获 取 文件 的 完整 路 径 
/ /keyInfo.set (itr.nextTbken ()+":"+ split.getPath() .toString())7 
// 这 里 只 获取 文件 的 名 称 
int splitIndex- split.getPath () .toString() .indexOf ("D") ; 
keyInfo.set (itr.nextToken () * ":"* split.getPath().toString(). 
substring(splitIndex)); 
//key 值 由 单词 和 URL 组 成 ,如 "MapReduce: D0.txt" 

valueInfo.set ("1"); 


// 词 频 初 始 化 为 1 


context.write (keyInfo, valueInfo); 
System.out.println ("Map key:"+ keyInfo* " value:"+ valueInfo); 


public static class Combine extends Reducer« Text, Text, Text, Text» { 
private Text info- new Text (); 
// 实 现 reduce 函数 
public void reduce (Text key, Iterable« Text» values, Context context) 
throws IOException, InterruptedException ( 
// 统 计 词 频 
int sum-0; 
for (Text value: values) ( 
sum+= Integer.parseInt (value.toString()); 
) 
int splitIndex=key.toString() .indexOf (":"); 
// 重 新 设置 value fË h URL 和 词 频 组 成 
info.set (key.toString() .substring(splitIndex* 1)+":"+ sum); 
// 重 新 设置 key 值 为 单词 
key.set (key.toString().substring(0, splitIndex)); 
context.write (key, info); 
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System.out.println ("Combine key:"+ key+ "value:"+ info); ud 


public static class Reduce extends Reducer< Text, Text, Text, Text» { 
private Text result- new Text (); 
// 实 现 reduce 函数 
public void reduce (Text key, Iterable« Text? values, Context context) 
throws IOException, InterruptedException ( 
// 生 成 文档 列表 
String fileList=new String()7 
for (Text value: values) { 
fileList*-value.toString()*";"; 
I 
result.set (fileList); 
context.write (key, result); 
System.out.println("Reduce Key:"+ key+" value:"+ result); 


public static void main(String[] args) throws Exception ( 
Configuration conf- new Configuration (); 
conf set ("mapred.job.tracker", "192.168.1.10:9001"); // 这 句 话 很 关键 
String[] ioArgs-new String[] ( "invertedindex in", "invertedindex out" }; 
String[] otherArgs- new GenericOptionsParser (conf, ioArgs). 
getRemainingArgs(); 
if (otherArgs.length !=2) { 
System.err.println("Usage: Inverted Index< in» «out» "); 
System.exit (2); 
) 
final FileSystem fileSystem=FileSystem.get (conf) ; 
fileSystem.delete (new Path (otherArgs[1]), true); 
// 删 除 MapReduce 输出 目录 


Job job- new Job(conf, "Inverted Index"); 
job.setJarByClass (InvertedIndex.class); 


job.setMapperClass (Map.class); // 设 置 Map 处 理 类 
job.setConbinerClass (Combine.class) ; // 设 置 Combine 处 理 类 
job.setReducerClass (Reduce.class); // 设 置 Reduce 处 理 类 
job.setMapOutputKeyClass (Text.class); / / E Map 的 Key 输 出 类 型 
job.setMapOutputValueClass (Text .class) ; // 设 置 Map 的 Value 输出 类 型 


job.setOutputKeyClass (Text.class); 
// 设 置 Reduce 的 Key 输 出 类 型 
job.setOutputValueClass (Text.class); 
// 设 置 Reduce 的 Value 输出 类 型 
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vest FileInputFormat.addInputPath (job, new Path (otherArgs[0])); 
// 设 置 输入 目录 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[1])); 
// 设 置 输出 目录 
System.exit (job.waitForCompletion (true) ? 0: 1); 


} 


程序 分 析 : 实现 * 倒 排 索引 ?要 关注 的 信息 为 : 单词 文档 URL 及 词 频 , 如 图 5-18 所 示 。 
但 是 在 实现 过 程 中 ,索引 文件 的 格式 与 图 5-19 略 有 不 同 , 以 避免 重 写 OutPutFormat 类 。 下 
面 根据 MapReduce 的 处 理 过 程 给 出 倒 排 索 引 的 设计 思路 。 


“Bye”: {(D3,1)} 

“Hello”: {(D3,1)} 
D0-MapReduce is simple is easy “MapReduce”: — {(D0,1),(D1,1),(D3,2)} 
D1=MapReduce is powerful is userful ^ " {(D0,1)} 
D3=Hello MapReduce Bye MapReduce “ig” {(D0,1),(D1,1)} 


{(D1,1)} 
“useful”: {(D1,D)} 


5-19 倒 排 索引 示意 图 


(1) Map 过 程 

首先 使 用 默认 的 TextInputFormat 类 对 输入 文件 进行 处 理 , 得 到 文本 中 每 行 的 偏 移 量 
及 其 内 容 。 显 然 ,Map 过 程 首 先 必 须 分 析 输 入 的 一 key,value 二 对 ,以 得 到 倒 排 索 引 中 需要 
的 三 个 信息 : 单词 文档 URL 和 词 频 , 如 图 5-20 所 示 。 


MapReduce DO.txt 1 

is DO.txt 1 

<0,MapReduce is simple is easy> Map simple DO.txt 1 

is DO.txt 1 

easy DO.txt 1 

MapReduce Dl.txt 1 

is DLtxt 1 

<0,MapReduce is powerful is userful> Map powerful DLtxt 1 
is Dl.txt 1 

userful Dl.txt 1 

Hello D2.txt 1 

MapRed D2.txt 1 

<0,Hello MapReduce Bye MapReduce> | [Map >| pye C Dant 1 
MapReduce D2.txt 1 


图 5-20 map 函数 的 输入 /输出 


这 里 存在 两 个 问题 : 第 一 ,一 key,value 二 对 只 能 有 两 个 值 ,在 不 使 用 Hadoop 自 定义 数 
据 类 型 的 情况 下 ,需要 根据 情况 将 其 中 两 个 值 合 并 成 一 个 值 , 作 为 key 或 value 值 ; 第 二 , 通 
过 一 个 Reduce 过 程 无 法 同时 完成 词 频 统计 和 生成 文档 列表 ,所 以 必须 增加 一 个 Combine 
过 程 完成 词 频 统 计 。 


这 里 讲 单词 和 URL 组 成 key 值 ( 如 MapReduce: DO. txt) ,将 词 频 作为 value, 这 样 做 的 
好 处 是 可 以 利用 MapReduce 框架 自 带 的 Map 端 排序 ,将 同一 文档 的 相同 单词 的 词 频 组 成 
列表 ,传递 给 Combine 过 程 , 实 现 类 似 于 WordCount 的 功能 。 

(2) Combine 过 程 

经 过 Map 方法 处 理 后 ,Combine 过 程 将 key 值 相同 的 value 值 累加 ,得 到 一 个 单词 在 文 
档 中 的 词 频 , 如 图 5-21 所 示 。 如 果 直 接 将 图 5-21 所 示 的 输出 作为 Reduce 过 程 的 输入 ,在 
Shuffle 过 程 时 将 面临 一 个 问题 : 所 有 具有 相同 单词 的 记录 (由 单词 .URL 和 词 频 组 成 ) 应 该 
交 由 同一 个 Reducer 处 理 , 但 当前 的 key 值 无 法 保证 这 一 点 ,所 以 必须 修改 key (AA value 
值 。 这 次 将 单词 作为 key 值 ,URL 和 词 频 组 成 value 值 ( 如 DO. txt; 1)。 这 样 做 的 好 处 是 可 
以 利用 MapReduce 框架 默认 的 HashPartitioner 类 完成 Shuffle 过 程 ,将 相同 单词 的 所 有 记 


录 发 送 给 同一 个 Reducer 进行 处 理 。 

“MapReduce DO.txt” list(1) = 
“is DO.txt" list(1) “MapReduce DO.txt 
“simple DO.txt" list(1) | [Combine > | «$ us p 2 
“is DO.txt" list(1) mp c> .txt 1 
“easy DO.txt" list(1) easy DO.txt 1 
“MapReduce DI.txt" list(1) 
“is DI.txt" list(1) “MapReduce DI.txt" 1 
“powerful D1.txt” list(1) | [Combine > “is D1.txt” 2 
“is DI.txt" list(1) “powerful DI.txt^ 1 
“useful DO.txt” list(1) “useful DI.txt" 1 
“Hello D2.txt” list(1) m ^ 

" Hello D2.txt' 1 
« E D bx 
ae i "Maphele Dim 2 
“MapReduce D2.txt” list(1) Bye D2.txt 1 


5-21 Combine 过 程 输入 /输出 


(3) Reduce 过 程 
经 过 上 述 两 个 过 程 后 ,Reduce 过 程 只 需 将 相同 key 值 和 value 值 组 合成 倒 排 索引 文件 
所 需 的 格式 即 可 , 剩 下 的 事情 就 可 以 直接 交 给 MapReduce 框架 进行 处 理 ,如 图 5-22 所 示 。 


“MapReduce” 

“ig” 

“simple” 

casy “Bye” 

pe e “Hello” 

“MapReduce “MapReduce” 

is Reduce "easy" 

“powerful ECT be 

useful “powerful” 
“simple” 

“Bye” “D2.txt:1” a 

“Hello™ “D2.txt:1” 

“MapReduce” “D2.txt:2” 


图 5-22 Reduce 过程 输 入 /输出 


154 | 


(0 CBE Hacky Jit 


S85 三 次 排 房 类 应 用 


应 用 需求 : 在 某 些 应 用 场合 中 ,需要 对 数据 文件 中 的 大 量 记 录 根 据 某 个 属性 进行 排序 ， 
可 是 这 个 属性 的 记录 太 多 ,需要 根据 其 他 属性 再 排序 。 这 种 应 用 称 为 “二 次 排序 ”。 

应 用 场景 : 在 对 大 数据 进行 分 析 时 , 常 采用 排序 的 方式 ,排序 后 ,发 现 数据 量 太 大 ,具有 
相同 关键 值 的 记录 也 非常 多 ,这 时 ,就 需要 再 对 第 二 属性 进行 排序 。 

解决 方案 : 默认 情况 下 ,Map 输出 的 结果 会 对 key 进行 默认 排序 ,但 是 “二 次 排序 ”中 除 
了 对 key 进行 排序 外 ,还 需要 对 位 于 value 值 中 的 另外 一 个 属性 进行 排序 ,而 MapReduce 
框架 并 没有 提供 对 value 值 进行 排序 的 方法 。 怎 么 实现 对 value 的 排序 呢 ? 这 就 需要 变通 
地 去 实现 这 个 需求 。 

变通 手段 : 可 以 把 key 和 value 联合 起 来 作为 新 的 key, 记 作 Newkey。 这 时 ,Newkey 
含有 两 个 字段 ,假设 分 别 是 k,v。 这 里 的 k 和 v 是 原来 的 key 和 value。 原 来 的 value 还 是 
不 变 。 这 样 ,value 就 同时 在 Newkey 和 value 的 位 置 。 再 实现 Newkey 的 比较 规则 , 先 按照 
key 排序 ,在 key 相同 的 基础 上 再 按照 value 排序 。 在 分 组 时 ,再 按照 原来 的 key 进行 分 组 ， 
就 不 会 影响 原 有 的 分 组 逻辑 了 。 最 后 在 输出 时 ,只 把 原 有 的 key, value 输出 ,就 可 以 变通 地 
实现 了 二 次 排序 的 需求 。 

应 用 案例 : 现 有 一 个 输入 文件 ,包含 两 列 数据 ,要 求 先 按照 第 一 列 整数 大 小 排序 ,如 果 
第 一 列 相同 ,按照 第 二 列 整数 大 小 排序 。 


secondrysort. txt: 


20 21 70 56 60 56 
50 51 70 57 60 57 
50 52 70 58 740 58 
50 53 5 6 63 6l 
50 54 7 82 730 54 
60 51 203 21 71 55 
60 53 50 512 71 56 
60 52 50 522 73 57 
60 56 50 53 74 58 
60 57 530 54 12 211 
70 58 40 511 31 42 
60 61 20 53 50 62 
70 54 20 522 7 8 
70 55 

执行 准备 : 


(1) 通过 Eclipse 下 的 DFS Locations 在 /user/hadoop 目录 下 新 建文 件 夹 secondarysort_in。 
(2) 在 Windows 下 新 建 secondarysort. txt 文件 ,并 上 传 到 /user/hadoop/secondarysort_in 
目录 下 。 


程序 执行 结果 : 

part- r- 00000(734.0b,r3) : 5 6 7 8 
---------------- | 00 22--2----------- 7 8 
---------------- 50 522 70 58 

12 21» nr-------------- | ---------------- 
---------------- 60 51 71 55 

20 21 60 52 Tl 56 

20 53 60 5 0 0 0 ---------------- 
20 522 60 56 73 57 
---------------- 60 56 ---------------- 
31 42 60 57 74 58 
---------------- 60 57 ---------------- 
40 511 60 6l 203 21 

50 51 63 61 530 54 

50 52. or-------------- =---------------- 
50 53 70 54 730 54 

50 53 70 55 nr--------------- 
50 54 70 56 740 58 

50 62 70 57 

50 512 70 58 

程序 代码 : 


import java.io.DataInput; 

import java.io.DataOutput; 

import java.io.IOException; 
import java.util.StringTokenizer; 


import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.fs.FileSystem; 

import org.apache.hadoop.fs.Path; 

import org.apache.hadoop.io.IntWritable; 

import org.apache.hadoop.io.LongWritable; 

import org.apache.hadoop.io.RawComparator; 

import org.apache.hadoop.io.Text; 

import org.apache.hadoop.io.WritableComparable; 

import org.apache.hadoop.io.WritableComparator; 

import org.apache.hadoop.mapreduce.Job; 

import org.apache.hadoop.mapreduce.Mapper; 

import org.apache.hadoop.mapreduce.Reducer; 

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat; 
import org.apache.hadoop.util.GenericOptionsParser; 


public class SecondarySort ( 
n 
* 创建 新 主键 类 IntPair, 把 第 一 列 整数 和 第 二 列 作为 类 的 属性 ,并 且 实 现 
WritableComparable 接口 
*/ 


(— CET tuens 


public static class IntPair implements WritableComparable« IntPair> { 
private int first-0; 
private int second- 0; 


public void set(int left, int right) ( 
first-left; 
second- right; 
H 
public int getFirst() ( 
return first; 
} 
public int getSecond() { 
return second; 


@ Override 
public void readFields (DataInput in) throws IOException { 
first- in.readInt(); 
second- in.readInt () 7 
) 
@ Override 
public void write (DataOutput out) throws IOException { 
out .writeInt (first); 
out .writeInt (second); 
} 
@ Override 
public int hashCode() { 
return first+ "".hashCode () + second* "" .hashCode () ; 
} 
@ Override 
public boolean equals (Object right) { 
if (right instanceof IntPair) { 
IntPair r= (IntPair) right; 
return r.first-- first && r.second-- second; 
) eise ( 
return false; 


) 
// 这 里 的 代码 是 关键 ,因为 对 key 排 序 时 ,调用 的 就 是 这 个 compareTo 方 法 
@ override 
public int compareTo (IntPair o) { 
if (first !-o.first) { 
return first -o.first; 
} else if (second !-o.second) { 
return second - o.second; 
} eise ( 
return 0; 


[e 
* 在 分 组 比较 时 ,只 比较 原来 的 key, 而 不 是 组 合 key 
*/ 
public static class GroupingComparator implements RawComparator< IntPair> { 
GOverride 
public int compare (byte[] bl, int sl, int 11, byte[] b2, int s2, int 12) ( 
return WritableComparator.compareBytes (bl, sl, Integer.SIZE/8, b2, s2, Integer.SIZE/8); 


@ Override 

public int compare (IntPair ol, IntPair 02) { 
int firstl=ol.getFirst (); 
int first2=02.getFirst (); 
return firstl -first2; 


public static class MapClass extends Mapper< LongWritable, Text, IntPair, IntWritable> { 


private final IntPair key- new IntPair(); 
private final IntWritable value- new IntWritable () ; 


@ Override 
public void map (LongWritable inKey, Text inValue, 
Context context) throws IOException, InterruptedException { 
StringTokenizer itr=new StringTokenizer (inValue.toString()); 
int left=0; 
int right=0; 
if (itr.hasMoreTokens()) { 
left= Integer .parseInt (itr.nextToken ()) ; 
if (itr.hasMoreTokens()) { 
right- Integer.parseInt (itr.nextToken()); 
) 
key.set (left, right); 
value.set (right); 
context.write (key, value); 


public static class Reduce extends Reducer< IntPair, IntWritable, Text , IntWritable> { 
private static final Text SEPARATOR- new Text("-------------------- E 
private final Text first- new Text (); 


@ Override 
public void reduce (IntPair key, Iterable< IntWritable>values, Context 
context) throws IOException, InterruptedException { 
context .write (SEPARATOR, null); 
first .set (Integer.toString (key.getFirst ())); 
for (IntWritable value: values) { 
context .write (first, value); 


public static void main(String[] args) throws Exception ( 
Configuration conf- new Configuration(); 
conf.set ("mapred.job.tracker", "192.168.1.10:9001"); // 这 句 话 很 关键 
String[] ioArgs-new String[] ( "secondarysort in", "secondarysort out" }; 
String[] otherArgs-new GenericOptionsParser (conf, ioArgs) .getRemainingArgs (); 
if (otherArgs.length !=2) { 
System.err.println("Usage: Inverted Index« in» «out» "); 
System.exit (2); 


final FileSystem fileSystem- FileSystem.get (conf) ; 
fileSystem.delete (new Path (otherArgs[1]), true); 

// 删 除 MapReduce íi Hi Hl ak ,3X H JE /user/hadoop/secondarysort out 
// 没 有 此 两 语句 , 若 输出 目录 存在 ,会 出 错 


Job job=new Job (conf, "secondary sort"); 
job.setJarByClass (SecondarySort.class); 
job.setMapperClass (MapClass.class); 

// 设 置 Mapper 处 理 类 

job.setReducerClass (Reduce.class) ; 

// 设 置 Reducer 处 理 类 


job.setGroupingComparatorClass (GroupingComparator.class); 
// 设 置 分 组 函数 类 ,对 二 次 排序 非常 关键 


job.setMapOutputKeyClass (IntPair.class); 

// 设 置 Map 的 输出 key 值 类 ,对 二 次 排序 非常 关键 
job.setMapOutputValueClass (IntWritable.class); 
// 设 置 Map 的 输出 value 值 类 ,对 二 次 排序 非常 关键 


job.setOutputKeyClass (Text.class); 
// 设 置 输出 的 key 的 类 型 
job.setOutputValueClass (IntWritable.class); 
// 设 置 输出 的 value 的 类 型 


FileInputFormat .addInputPath (job, new Path (otherargs [0])) > 
// 设 置 输入 目录 

FileOutputFormat .setOutputPath (job, new Path (otherArgs[1])); 
// 设 置 输出 目录 

System.exit (job.waitForCompletion (true) ? 0: 1); 


H 


程序 分 析 : 
先 对 现在 第 一 列 和 第 二 列 整数 创建 一 个 新 的 类 ,作为 Newkey, 这 里 的 Newkey 名 称 为 
IntPair, 对 Newkey 的 比较 有 两 种 方法 。 
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(1) 在 Map 阶段 的 最 后 ,会 先 调用 job. setPartitionerClass 对 输出 的 List 进行 分 区 ,每 
个 分 区 映射 到 一 个 Reducer ,每 个 分 区 又 调用 job. setSortComparatorClass 设置 的 Key 比较 
函数 类 进行 排序 。 

(2) 如 果 没 有 通过 job. setSortComparatorClass 设置 Key 比较 类 , 则 使 用 Key 实现 的 
compareTo 方法 排序 。 本 例 代码 就 使 用 了 compareTo 方法 排序 。 

在 Reduce 阶段 ,Reduce 接收 到 所 有 映射 到 这 个 Reduce 的 Map 输出 后 ,也 是 会 调用 
job. setSortComparatorClass 设置 的 Key 比较 函数 类 对 所 有 数据 对 排序 。 然 后 开始 构建 一 
个 Key 对 应 的 Value 迭代 器 。 这 时 就 要 用 到 分 组 ,使 用 job. setGroupingComparatorClass 
设置 的 分 组 函数 类 。 只 要 这 个 比较 器 比较 的 两 个 Key 相同 ,它们 就 属于 同一 个 组 ,它们 的 
Value 就 在 一 个 Value 迭代 器 ,而 这 个 迭代 器 的 Key 使 用 属于 同一 个 组 的 所 有 Key 的 第 一 
个 Key。 

最 后 就 是 进入 Reducer 的 reduce 方 法 ,reduce 方法 的 输入 是 所 有 的 Key 和 它 的 Value 
迭代 器 。 


mos 


HBase 数据 库 Do 


随 着 计算 机 技术 的 发 展 ,计算 机 被 广泛 应 用 于 数据 处 理 , 以 银行 为 代表 的 事务 型 数据 
处 理 推动 了 关系 型 数据 库 的 产生 和 发 展 。 但 是 , 随 着 互联 网 应 用 的 快速 发 展 对 数据 库 技 术 
产生 了 新 的 要 求 , 以 Google 旗下 BigTable 为 代表 的 新 型 数据 库 产 生 并 迅速 发 展 起 来 。 
HBase 就 是 BigTable 的 开源 实现 ,本 章 就 来 介绍 HBase 相关 的 知识 及 其 应 用 。 


6.1 HBase 介绍 


611 互联 网 时 代 对 数据 库 的 要 求 


20 世纪 90 年 代 , 互 联网 出 现 了 , 随 着 其 迅猛 发 展 ,对 数据 库 技术 提出 了 新 的 要 求 。 

COD 能 够 存储 处 理 非 结构 化 数据 。 以 搜索 引擎 为 代表 的 网 络 应 用 产生 了 大 量 的 非 结 构 
化 数据 ,如 网 页 ,图片 音频、 视频 .电子 邮件 等 。 传 统 的 关系 型 数据 库 对 这 些 非 结构 化 数据 
的 存储 与 处 理 已 经 显得 力不从心 ,因为 关系 型 数据 库 以 行 (记录 ) 为 单位 ,结构 相对 固定 ,对 
网 页 等 非 结构 化 数据 的 处 理 具有 较 大 的 难度 。 

(2) 能 够 处 理 海量 数据 。Google 等 搜索 引擎 抓 取 了 大 量 的 网 页 ,存储 在 数据 库 中 ,从 
而 产生 了 TB 级 甚至 PB 级 的 数据 量 , 这 就 要 求 数据 库 有 海量 的 存储 处 理 能 力 。 而 关系 型 数 
据 库 已 经 不 能 胜任 存储 并 处 理 这 些 海量 数据 的 任务 。 

G) 能 够 适应 应 用 系统 的 高 并 发 高 吞吐 量 的 要 求 。 互 联网 应 用 上 线 以 后 ,用 户 量 可 能 
会 急速 上 升 ,数据 吞吐 量 也 非常 巨大 。 如 : 天 猫 在 * 双 11” 购 物 节 时 ,访问 量 达 6 500 万 人 
次 ;优酷 网 日 均 用 户 访问 量 达 3. 2 亿 人 次 ,每 周 覆盖 的 不 重复 用 户 达 1.5 亿 。 如 此 巨大 的 访 
问 量 及 吞吐 率 是 关系 型 数据 库 难以 承受 的 。 

(4) 能 够 应 对 高 速 发 展 变化 的 业务 需求 。 互 联网 应 用 一 旦 上 线 , 用 户 对 该 应 用 会 提出 
新 的 功能 要 求 , 应 用 服务 商 也 会 不 断 推出 新 的 功能 。 如 Facebook 就 频繁 地 推出 过 不 少 新 的 
功能 。 这 些 变 化 的 业务 系统 ,就 要 求 数据 库 系统 具有 极 强 的 扩展 性 。 

正 是 互联 网 应 用 的 迅速 发 展 ,要 求 存储 并 处 理 网 络 数据 的 数据 库 系统 能 够 满足 互联 网 
业务 的 需求 ,从 而 产生 了 以 Google 的 BigTable 为 代表 的 NoSQL 技术 ,NoSQL 的 含义 不 是 
指 抛弃 SQL 技术 ,而 是 指 Not only SQL, 即 是 指 超 越 传统 的 关系 型 数据 库 。 


612 Hee 的 特点 


HBase 数据 库 运 行 于 Hadoop 之 上 ,是 Google 的 BigTable 数据 库 的 开源 实现 ,设计 并 


ox Hose BBM 


实现 了 高 可 靠 性 、 高 性 能 、 列 存储 、 可 伸缩 、 实 时 读 写 的 数据 库 系统 ,用 于 存储 粗 粒 度 的 结构 
化 数据 。HBase 具有 下 列 特点 。 
。 K: 一 个 表 可 以 有 上 亿 行 ,上 百 万 列 。HBase 仅 使 用 普通 的 硬件 ,就 可 以 处 理 成 千 
上 万 的 行 和 列 组 成 的 大 型 数据 。 
。 面向 列 : 面 向 列 ( 族 ) 的 存储 和 权限 控制 , 列 ( 族 ) 独 立 检索 。 
-F ATA as CNuID 的 列 ,并 不 占用 存储 空间 ,因此 , 表 可 以 设计 得 非常 稀疏 。HBase 
中 存储 的 数据 介 于 映射 (key-value) 与 关系 型 数据 之 间 , 它 存储 的 数据 可 以 理解 为 一 
种 映射 ,但 又 不 是 一 种 简单 的 映射 。 
HBase 中 存储 的 数据 逻辑 上 看 就 是 一 张大 表 , 如 图 6-1 所 me [me NEN 
示 , 它 的 数据 列 可 以 根据 需要 动态 地 增加 ,每 个 单元 格 (Cell) 中 
的 数据 可 以 有 多 个 版 本 (通过 时 间 截 来 区 别 )。HBase 向 下 提 
供 了 存储 ,向 上 提供 了 数据 运算 ,也 就 是 说 , 它 既 能 利用 HDFS 
的 存储 能 力 向 用 户 提 供 数据 存储 服务 ,又 能 利用 MapReduce 
模型 进行 大 规模 并 行 数据 处 理 。 Wk Betas 


6.2 HBase 架构 与 原理 


Bel ”系统 的 架构 及 组 成 


HBase 在 Hadoop 体系 中 位 于 结构 化 存储 层 , 其 底层 存储 支撑 系统 为 HDFS 文件 系 
统 , 使 用 MapReduce 框架 对 存储 在 其 中 的 数据 进行 处 理 , 利 用 Zookeeper 作为 协同 服务 ， 
HBase 的 架构 如 图 6-2 所 示 。 


1. HBase Client 

HBase Client 是 HBase 的 使 用 者 ,利用 RPC 机 制 与 HMaster 和 HRegionServer 进行 
通信 ,HBase Client 与 HMaster 通信 进行 管理 类 操作 ;与 HRegionServer 通信 进行 数据 读 
写 操作 。 

2. Zookeeper 

Zookeeper 在 HBase 中 协调 管理 节点 ,提供 分 布 式 协调 ,管理 操作 。 在 Zookeeper Quorum 
中 ,除了 存储 -ROOT- 表 的 地 址 和 H Master 的 地 址 外 ,HRegionServer 也 以 Ephemeral 方式 
把 自己 注册 到 Zookeeper 中 ,使 得 HMaster 可 以 感知 到 各 个 HRegionserver 的 健康 状况 ， 
Zookeeper 也 避免 了 HMaster 的 单 点 问题 。 

3. HMaster 

HMaster 是 整个 架构 中 的 控制 节点 ,HBase 中 可 以 启动 多 个 HMaster, 通 过 Zookeeper 
的 Master Election 机 制 保证 总 有 一 个 Master 在 运行 ,这 样 就 避免 了 单 点 问题 。HMaster 
的 功能 如 下 。 

。 管理 用 户 对 Table 的 增 \ 改 、 删 、 查 等 操作 。 

。 管理 RegionServer 的 负载 均衡 .调整 Region 分 布 。 

* 在 Region Split 后 ,负责 新 Region 的 分 配 。 


Hadoop: MapReduce 


Zookeepe 


HBase 


HDFS 


‘161 


Ri SPHH 2-9 Bl 


aponewa əponewa 
aponewa əponewa əponewaq s: 
[ [ ] à 
] D 
[ [ = ! 
I [ ] x 
Du ] | WAI SIAH «+ ODM 
WOHD SIAH + O | 
^ 
1 
We face a ate we lel ee Se TENEO ERI 
PICS ME NE e ME je 
— | | 
rH " | | iias OH OAH 
ji J E 1 
bci n | | Sois [1422018 | | oj149401S E 
9[r4o101S opr4o201S | | sltdeuolS B | i E " 
e 
d | 
f d Td | MOISWP | ao al01SUaIN aog 8 
| al01 al01SUIN 1 ! aig 
1 SUPA | aij amos ME 
| | | uordo1]] 
i Uor3aH I l AAA 
ne i 人 JeAl9SuolSoNH 
E J9A10SUOIS OH | > 
1 
1 
1 


jua] 3segH 


ox HRED 


* 在 HRegionServer 停机 后 ,负责 失效 HRegionServer 上 的 Region 迁移 。 


4 HRegionServer 

HRegionServer 是 HBase 中 的 最 核心 的 组 件 , 它 主 要 负责 响应 用 户 的 1/O 请 求 ,向 
HDFS 文件 系统 中 读 写 数据 。HRegionServer 内 部 管理 着 一 系列 的 HRegion 对 象 , 每 个 
HRegion 对 应 Table 中 的 一 个 Region( 分 区 ) 。 

(D HRegion, HRegion 是 HRegionServer 中 管理 的 一 类 数据 对 象 ,HRegion 由 多 个 
HStore 组 成 ,每 个 HStore 对 应 Table 中 的 一 个 ColumnFamily( 列 族 ) 的 存储 ,也 就 是 说 每 
个 “ 列 族 ” 其 实 就 是 一 个 集中 的 存储 单元 ,所 以 将 具有 共同 1/0 特性 的 Column( 列 ) 放 在 一 
个 “ 列 族 ” 中 是 最 高 效 的 做 法 。 

(2) Store, Store 是 HBase 存储 的 核心 对 象 , 它 由 两 部 分 组 成 ,一 部 分 是 StoreFile, 另 
一 部 分 是 MemStore。 

(3) MemStore。MemStore 是 StoreFile 的 内 存 缓存 ,也 就 是 以 内 存 的 形式 存储 数据 ， 
用 户 写 入 的 数据 首先 会 放 和 人 MemStore, 当 MemStore 满 了 以 后 ,执行 Flush 操作 ,把 数据 写 
入 StoreFile。 数 据 的 增删 改 都 是 在 StoreFile 的 后 续 操作 中 完成 的 ,用 户 的 写 操作 只 需要 访 
问 内 存 中 的 MemStore, 解 决 了 前 文中 提 到 的 高 并 发 .高 吞吐 量 的 问题 。 

(4) StoreFile。StoreFile 是 以 HDFS 文件 的 形式 存储 数据 , 当 StoreFile 文件 数量 增长 
到 一 定 阅 值 时 ,会 触发 Compact 操作 ,把 多 个 StoreFile 文件 合并 成 一 个 StoreFile, 合 并 过 
程 中 会 进行 版 本 合并 和 数据 删除 。StoreFile 在 完成 Compact 操作 后 ,会 逐渐 形成 越 来 越 大 
的 StoreFile, 当 单个 StoreFile 大 小 超过 一 定 阔 值 时 ,会 触发 Split 操作 ,把 当前 Region 分 列 
成 两 个 Region. € Region 下 线 ,新 分 裂 的 2 个 孩子 Region 会 被 HMaster 分 配 到 相应 的 
HRegionServer 上 ,使 原来 的 一 个 Region 的 压力 分 到 2 个 Region 上 。 


5, HLog 

HLog 是 为 了 解决 分 布 式 环境 下 系统 可 靠 性 而 设计 的 。 在 分 布 式 环境 下 ,系统 出 错 和 
宕 机 是 经 常 的 事 ,为 了 避免 MemStore 中 的 数据 丢失 ,就 引进 了 HLog 对 象 。 每 个 
HRegionServer 都 有 一 个 HLog 对 象 , 写 入 MemStore 中 的 数据 首先 序列 化 写 和 人 HLog X 
件 中 , HLog 文件 定期 更 新 ,删除 旧 文 件 ,这 时 数据 已 经 持久 化 到 StoreFile 文件 中 。 当 
HRegionServer 终止 后 ,HMaster 通过 Zookeeper 感知 到 了 异常 ,HMaster 会 处 理 遗 留 的 
HLog, 把 其 中 不 同 Region 的 Log 进行 拆 分 ,分 别 放 到 相应 的 Region 目录 下 ,然后 将 失效 的 
Region 重新 分 配 , 这 些 Region 的 HRegionServer 在 Load Region 过 程 中 ,会 发 现 有 历史 
HLog 需要 处 理 , 重 新 加 载 HLog 中 的 数据 到 MemStore 中 ,并 持久 化 到 StoreFile 中 ,至 此 
完成 数据 的 恢复 。 


Bee Hee 逻辑 视图 


HBase 中 存储 数据 的 逻辑 视图 就 是 一 张大 表 (BigTable) ,如 表 6-1 所 示 。 表 的 数学 模 
型 可 以 描述 为 多 维 映射 , 表 中 的 每 个 值 可 以 由 四 个 元 素 映射 得 到 。 了 映射 函数 为 : 


CellValue= Map (TableName, RowKey, ColumnKey, TimeStamp) 


其 中 ， 
(1) TableName( 表 名 ) 为 一 个 字符 串 ,是 一 个 表 标 识 。 
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表 6-1 HBase 表 的 逻辑 视图 


ColumnFamily: 


è " ColumnFamily: "anchor" ColumnFamily; "mime" 
contents 


RowKey |TimeStamp| 


t9 <html>al</html> | anchor: pku. edu. cn="PKU" 


"cn. edu. t anchor: ruc. edu. cn= "RUC" 
tsinghua. t5 <html>c3</html> mime: type= "text/html" 
www" t4 <html> b2</html> 


t3 <html> d4</html> 


(2) RowKey( 行 关键 字 ) 是 一 个 最 大 长 度 为 64KB 的 字符 串 , 在 存储 时 ,数据 是 按照 
RowKey 的 字典 顺序 排序 存储 的 ,在 设计 RowKey 时 要 充分 利用 这 个 特性 ,将 经 常 一 起 读 
取 的 行 存储 在 一 起 。 

(3) ColumnKey( 列 关键 字 ) 是 由 ColumnFamily( 列 族 ) 和 Qualifier( 限 定 词 ) 构 成 的 。 
每 张 表 是 列 族 的 集合 ,在 定义 表 结 构 时 , 列 族 需要 先 定义 好 ,而 且 是 固定 不 变 的 ,而 列 的 限定 
词 却 不 需要 ,可 以 在 使 用 时 生成 , 且 可 以 为 空 。 这 样 就 增加 了 HBase 的 灵活 性 。HBase 把 
同一 列 族 下 的 数据 存储 在 同一 个 目录 下 ,并 且 写 数据 时 是 按 行 来 锁定 的 。 

(4) TimeStamp( 时 间 惟 ) 是 为 了 适应 同一 数据 在 不 同时 间 的 变化 而 设计 的 。 比 如 : 互 
联网 上 的 网 页 数据 ,在 URL 相同 时 ,网 页 内 容 可 能 有 多 个 版 本 ,因此 ,HBase 3 FH IRE [8] EIE 
标识 不 同 的 内 容 。 时 间 戳 是 64 位 的 整数 ,可 以 由 HBase 赋值 为 系统 时 间 ,也 可 以 由 客户 显 
式 赋值 。 每 个 Cell 中 ,不 同 版 本 的 数据 按照 时 间 倒 序 排列 , 即 最 新 的 数据 排 在 最 前 面 。 为 
了 避免 过 多 的 时 间 戳 造成 的 版 本 管理 问题 (存储 和 索引 ), HBase 采用 了 两 种 版 本 回收 机 
制 : 一 是 对 每 个 数据 单元 ,只 存储 指定 个 数 的 最 新 版 本 ;二 是 保存 一 段 时 间 内 的 版 本 (如 最 
近 七 天 ) ,用 户 可 以 对 每 个 列 族 进行 设置 。 


623 HBe 的 物理 模型 


HBase 从 逻辑 上 看 与 传统 的 关系 模型 非常 相像 ,但 它 实 际 上 是 按照 列 存储 的 稀 朴 矩 
阵 ,物理 上 是 把 逻辑 模型 按 行 键 进行 分 制 , 并 按 列 族 存 储 的 。 上 面 的 逻辑 视图 经 过 分 制 
后 ,转变 为 下 列 三 个 物理 视图 , 它 分 别 是 ColumnFamily: "contents", ColumnFamily: 
"Anchor", ColumnFamily; "mime" ,如 表 6-2 一 表 6-4 所 示 。 


6-2 FJR contents 物理 视图 


RowKey TimeStamp ColumnFamily; "contents" 
t9 <html>al</html> 
t5 <html>c3</html> 
"cn. edu. tsinghua. www" 
t4 «html b2</html> 
t3 html d4</html> 


3 6-3. F anchor 物理 视图 

RowKey TimeStamp ColumnFamily; "anchor" 
t9 anchor: pku. edu. cn= "PKU" 
t7 anchor: ruc. edu. cn— "RUC" 


"cn. edu. tsinghua. www" 
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#6-4 FJR anchor 物理 视图 
RowKey TimeStamp ColumnFamily; "mime" 
"cn. edu. tsinghua. www" t5 mime: type= "text/html" 


bea 元 数据 表 
HBase 的 核心 组 件 有 MasterServer, HRegionServer, HRegion, HMemcache, HLog, 
HStore, 它 们 之 间 的 关系 如 图 6-3 所 示 ,Hadoop 使 用 了 主 从 结构 ,也 就 是 Master-Slave 结 
构 ,HBase 也 采用 了 主 从 结构 ,MasterServer 负责 管理 所 有 的 HRegionServer, 数 据 会 被 分 
为 HRegion 单元 存储 在 HRegionServer 上 。 表 中 的 数据 按 RowKey 排序 后 ,分 为 多 个 
HRegion 进行 存储 ,每 个 表 在 开始 时 只 有 一 个 HRegion, 随 着 数据 不 断 增加 ,HRegion 会 越 
来 越 大 , 当 超 过 一 定 阅 值 时 ,这 个 HRegion 会 被 分 为 两 个 HRegion。 这 样 HRegion 会 不 断 
增多 。 


MasterServer Meta Table 


HRegionServer HRegionServer HRegionServer 


9 HRegion s 


i 
1 1 

1 
| MemStore HStore HLog | 
1 


图 6-3 HBase 组 件 关 系 图 


HRegion 是 HBase 中 数据 存储 的 最 小 单元 ,多 个 HRegion 可 以 存放 在 一 个 HRegion- 
Server 上 ,但 一 个 HRegion 不 能 分 在 多 个 HRegionServer 上 。 这 样 能 很 好 地 实现 数据 管理 
的 负载 均衡 。 

HRegion 被 划分 为 若干 Store 进行 存储 ,每 个 Store 保存 了 一 个 列 族 中 的 数据 。Store 
又 由 两 部 分 组 成 : MemStore 和 StoreFile。MemSore 是 HRegionServer 中 的 内 存 缓存 , 数 
据 库 进 行 数据 写 入 时 ,首先 写 和 人 MemStore, 当 MemStore 写 满 后 ,会 写 和 人 StoreFile, 而 
StoreFile 实际 上 是 HDFS 中 的 一 个 HFile。 

从 上 面 的 描述 中 可 以 看 出 ,在 HBase 中 ,大 部 分 的 操作 都 是 在 HRegionServer 中 完成 
的 ,Client 端 想 要 插入 .删除 、 查 询 数据 都 需要 先 找 到 相应 的 HRegionServer。Client 本 身 并 
不 知道 哪个 HRegionServer 管理 哪个 HRegion, 那 么 它 是 如 何 找到 相应 的 HRegionServer 
的 呢 ? 这 就 需要 两 个 元 数据 表 : -ROOT- 和 . META. 。 

它们 是 HBase 的 两 张 内 置 表 , 从 存储 结构 和 操作 方法 的 角度 来 说 ,它们 和 其 他 H Base 
的 表 没有 任何 区 别 , 可 以 把 它们 当 作 两 张 普通 的 表 , 可 以 像 操 作 普 通 表 一 样 操作 它们 。 它 们 
与 众 不 同 的 地 方 是 ,HBase 用 它们 来 存储 一 个 重要 的 系统 信息 一 一 Region 的 分 布 情况 以 及 
每 个 Region 的 详细 信息 。 

-ROOT- 是 HBase 的 根 数 据 表 ,里 面 存放 了 . META. 表 的 Region 信息 , 且 HBase 中 只 
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有 一 个 -ROOT- 表 。-ROOT- 保 存在 Zookeeper 服务 器 中 , HBase 客户 端 第 一 次 访问 数据 
时 , 先 从 Zookeeper 获得 -ROOT- 位 置信 息 并 存 人 缓存 。 

.META. 表 记录 了 用 户 表 的 Region 信息 ,可 以 有 多 个 Region. 

客户 端 访问 用 户 数据 之 前 ,首先 需要 访问 Zookeeper, 然 后 访问 -ROOT-, 根 据 -ROOT- 
信息 访问 . META. 表 , 根 据 . META. 表 的 信息 找到 用 户 数据 所 在 的 位 置 , 中 间 需 要 经 过 多 
次 网 络 访问 ,如 图 6-4 所 示 。 不 过 客户 端 采用 缓存 机 制 后 ,能 够 有 效 降低 网 络 开销 。 


User Tablel 


User Table2 


Zookeeper 


-ROOT-Location 


l 


User TableN 


图 6-4 “元 数据 表 关系 图 


6.3 安装 HBase 


要 安装 HBase 首先 应 到 Apache 官网 下 载 软件 ,下 载 时 应 注意 选择 国内 的 镜像 网 站 ,从 
这 里 下 载 要 比 国外 的 网 站 要 快 一 些 ,Apache 官网 下 载 地 址 是 : http://www. apache. org/ 
dyn/closer. cgi/hbase/ ,这 里 选择 HBase 0. 96.2, 以 与 Hadoop 1. 2. 1 相 适应 。HBase 有 两 
个 版 本 ,一 个 是 与 Hadoop 1. X 相 适 应 的 版 本 hbase-0. 96. 2-hadoopl-bin. tar. gz, 一 个 是 与 
Hadoop 2. X 相 适 应 的 版 本 hbase-0. 96. 2-hadoop2-bin. tar. gz, 下载 前 者 。 

AFA: Hadoop 5 HBase 的 版 本 匹配 关系 应 引起 注意 , 若 版 本 不 匹配 可 能 会 引起 问 
题 ,在 Apache 官网 http://hbase. apache. org/book. html 中 有 Hadoop 与 HBase 的 版 本 匹 
配 表 可 供 参考 。 

HBase 与 Hadoop 类 似 也 有 三 种 安装 模式 : 单机 模式 、 伪 分 布 模式 和 分 布 模式 ,下面 来 
分 别 介绍 。 


Gar 单机 模式 安装 


用 secureFX 把 下 载 的 hbase-0. 96. 2-hadoopl-bin. tar. gz 文件 上 传 到 Linux 服务 器 的 
hadoop 用 户 目 录 下 。 


1 解压 文件 
hadoop@ master:-$tar - zxvf hbase- 0.96.2- hadoopl- bin.tar.gz 


为 了 以 后 操作 简单 方便 ,把 hbase-0. 96. 2-hadoopl 目录 改名 为 hbase. 


hadoop@ master:~$mv hbase- 0.96.2- hadoop1/ hbase/ 


2 修改 环境 变量 
TE / etc/ profile 文件 中 加 入 


export HBASE HOME- /home/hadoop/hbase 
export PATH= SPATH:SHADOOP HOME/bin:SHBASE HOME/bin 


编辑 后 ,运行 命令 source /etc/profile, 使 环境 变量 发 挥 作用 。 


3. 编辑 {HBASE_HOME }/conf/hbase-env.sh 
加 入 以 下 内 容 。 


export JAVA HOME- /usr/lib/jdk 
export HBASE MANAGES ZK-true 


4 4448 (HBASE, HOME J/conf/hbase-site xml 
文件 内 容 如 下 : 


<configuration> 
«property» 
<name> hbase .rootdir< /name> 
«value» hdfs://master:9000/hbase« /value> 
</property> 
<property> 
<name> hbase . zookeeper .property.dataDir< /name> 
« value» /home/$ {user .name}/zookeeper< /value» 
</property> 
< /configuration> 


5. 启动 HBase 
先 启 动 Hadoop: 


hadoop@ master:-$start- al1.sh 

然后 启动 HBase: 

hadoop@ master:~/hbase/bin$ ./start- hbase.sh 
用 jps 命令 查看 ,已 经 运行 了 Hmaster 进程 。 


hadoop@ master:-$jps 
6340 TaskTracker 
6020 SecondaryNameNode 
6566 HMaster 
6102 JobTracker 
6983 Jps 
5543 NameNode 
5773 DataNode 


可 以 发 现 除 了 Hadoop 的 进程 以 外 ,还 有 HMaster 进程 ,说 明 HBase 已 经 启动 成 功 。 


”mp GR dS 


6 进入 shell 模式 


hadoop@ master:~Shbase shell 

HBase Shell; enter 'help<RETURN>' for list of supported commands 
Type "exit« RETURN» " to leave the HBase Shell 

Version 0.96.2- hadoopl, r1581096, Mon Mar 24 15:45:38 PDT 2014 


hbase (main) :001:0> status 

SLF4J: Class path contains multiple SLF4J bindings 

SLFAJ: Found binding in [jar: file:/home/hadoop/hbase/lib/slf4j - 1og4j12- 1. 6. 4. jar!/org/ 
s1f4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar: file:/home/hadoop/hadoop/lib/s1f4j- 10g4j12- 1.4.3. jar!/org/ 
s1f4j/impl/StaticLoggerBinder.class] 

SLF4J: See http://www.s1f4j.org/codes.htmlémultiple bindings for an explanation. 

1 servers, 0 dead, 2.0000 average load 


hbase (main) :002:0» list 
TABLE 
0 row(s) in 0.0830 seconds 


=> [] 
hbase (main) :003:0>exit 


7. f&1E HBase 


hadoop@ master:~$stop- hbase.sh 
stopping hbase... 


然后 停止 Hadoop: 


hadoop@ master:~$stop-all.sh 


fae 伪 分 布 模式 安装 


伪 分 布 模式 的 1.2、3 安装 步骤 与 单机 模式 一 样 ,这 里 不 再 重复 ,这 里 仅 列 出 hbase-site. 
xml 文件 内 容 。 


4% $8 {HBASE_HOME }/conf/hbase-site xml 
<configuration> 
<property> 
<name> hbase .rootdir< /name> 
<value>hdfs://master:9000/hbase< /value> 
</property> 
<property> 
<name> hbase. zookeeper.property.dataDir< /name> 
«value» /home/$ {user .name}/zookeeper< /value> 
</property> 
<property> 
<name> hbase.cluster.distributed< /name> 
«value» true< /value> 
</property> 
</configuration> 


Aas ”分 布 式 安装 
分 布 模式 安装 的 1.2、3 步 与 单机 模式 相同 ,这 里 不 再 袭 述 。 
1. 4448 (HBASE. HOME /conf/hbase- site xml 


«configuration» 


«property» 
«name» hbase .rootdir« /name> 
« value» hdfs: / /master: 9000/hbase« /value> 
« /property» 
«property» 
«name» hbase.cluster.distributed« /name> 
«value» true< /value> 
</property> 
<property> 
<name> hbase . zookeeper.quorum< /name> 
<value>master, slavel, slave2< /value> 
</property> 
<property> 
<name> hbase . zookeeper .property.dataDir< /name> 
« value» /home/$ {user .name}/zookeeper< /value> 
</property> 
<property> 
<name> dfs.replication< /name> 
«value» 3< /value> 
</property> 
< /configuration> 


2. 编辑 $ {HBASE_HOME}/conffregionservers 


master 
slavel 
slave2 


3. 复制 文件 ,避免 版 本 问题 

在 hbase/lib 目录 下 有 hadoop-core-1. 1.2.jar, 这 个 文件 有 可 能 与 安装 的 Hadoop 版 本 
不 一 致 ,引起 版 本 冲突 。 把 /home/hadoop/hadoop/ 下 的 hadoop-core-1. 2. 1. jar 复制 到 / 
home/hadoop/hbase/lib 下 ,并 把 原 有 的 hadoop-core-1. 1. 2. jar 改名 为 hadoop-core-1. 1. 2. 
jar. bak. 


hadoop@ master: ^/hadoop$cp hadoop- core- 1.2.1.jar /home/hadoop/hbase/lib 
hadoop@ master:-/hbase/lib$mv hadoop-core-1.1.2.jar  hadoop- core-1.1.2.jar.bak 


修改 权限 ,使 其 具有 执行 权限 。 
hadoop@ master:~/hbase/1ib$chmod 755 hadoop- core- 1.2.1.jar 
4 把 HBase 文件 夹 复制 到 其 他 slave 主机 


hadoop@ master:-/hbase/conf$scp -r /home/hadoop/hbase hadoop8 slavel:/home/hadoop/ 


RS fado 


hadoop@ master:-/hbase/conf$scp -r /home/hadoop/hbase hadoop8 slave2: /home/hadoop/ 


5. 测试 是 否 安装 成 功 

启动 HBase: 

hadoop@ master:- /hbase/bin$./start- hbase.sh 
在 Master 上 运行 jps: 


hadoop@ master:~/hbase/bin$jps 
2581 HMaster 

2768 Jps 

2136 JobTracker 

1788 NameNode 

2063 SecondaryNameNode 


在 slave 上 运行 jps 结果 : 


hadoop@ slavel:~$jps 

2567 Jps 

1664 DataNode 

2251 HQuorumPeer 

1830 TaskTracker 

2436 HRegionServer 

Web 测 试 

打开 浏览 器 输入 http://192.168.1.10:60010 


可 以 查看 到 HBase 的 相关 信息 ,如 图 6-5 所 示 。 


ble Details Locallogs Log Level 。 Debug dump 。 Wetics Dump 。 HBase Configuration 


Master master 


Region Servers 
Memoy Requests Stories 
Start time Num. Regions 
Tue Oct 14 183057 CST 2014 o 


Tue Oct 14 18:21:01 CST 2014 


o 
Slave2.6 a Tue Oct 14 18:31:01 CST 2014 2 
2 


Total:3 


Backup Masters 


ServerName 


图 6-5 HBase MY Web 页面 
通过 http://192. 168. 1. 10:60030 可 以 查看 Region Server 的 状态 。 


通过 http://192. 168. 1. 10:60010/zk. jsp 可 以 查看 Zookeeper tree 信息 。 
停止 HBase: 


hadoopemaster:~/hbase/bin$./stop-hbase.sh 


6.4 HBase Shell 操作 


HBase 支持 多 种 方式 对 数据 进行 管理 ,包括 : 最 直观 简单 的 Shell 方式 ;Java 编程 的 
API 方 式 ; 非 Java 语言 的 Thrift, REST, Avro 方式 等 。 

HBase 的 Shell 方式 是 通过 连接 到 本 地 或 远程 的 HBase 服务 器 采用 命令 行 的 方式 对 数 
据 进行 管理 。Shell 工具 在 使 用 时 ,应 遵守 以 下 规则 。 

CD 名 称 规则 : 在 HBase 中 输入 表 名 、 列 名 等 参数 时 ,应 以 单 引 号 或 双 引 号 将 名 称 包围 
起 来 。 

(2) 数值 输入 规则 : HBase Shell 支持 以 十 六 进 制 或 八进制 输入 或 输出 数据 ,输入 数据 
时 ,需要 将 数值 用 双 引 号 包围 起 来 。 

(3) 参数 分 割 规则 : 当 HBase Shell 命令 中 有 多 个 参数 时 ,需要 用 逗号 分 隔 开 。 

(4) 关键 字 - 值 输入 规则 : 在 输入 关键 字 - 值 形式 的 参数 时 ,需要 采用 Ruby 哈 希 值 输入 
格式 : {keyl' 一 二 "valuel',key2 一 二 value2'...}。 即 关键 字 和 值 都 要 用 单 引 号 括 起 来 。 

HBase Shell 提供 了 5 类 命令 进行 数据 管理 : 表 管理 .数据 管理 .工具 .复制 和 其 他 。 
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1 启动 Shell 

hadoop@ master:~$hbase shell 
HBase Shell; enter 'help« RETURN» ' for list of supported commands 
Type "exit« RETURN» " to leave the HBase Shell 
Version 0.96.2- hadoopl, r1581096, Mon Mar 24 15:45:38 PDT 2014 


2 使 用 status 查看 HBase 的 运行 状态 

hbase (main) :001:0> status 

SLF4J: Class path contains multiple SLF4J bindings 

SLF4J: Found binding in [jar: file:/home/hadoop/hbase/lib/slf4j - 10g4j12- 1. 6. 4. jar!/org/ 
slf4j/impl/StaticLoggerBinder.class] 

SLF4J: Found binding in [jar: file:/home/hadoop/hadoop/lib/slf4j- 1094j12- 1.4.3. jar!/org/ 
s1f4j/impl/StaticLoggerBinder.class] 

SLFAJ: See http://www.s1£4j .org/codes.html#multiple bindings for an explanation 


3 servers, 0 dead, 0.6667 average load 


3. 查看 版 本 


hbase (main) :003:0> version 
0.96.2-hadoopl, r1581096, Mon Mar 24 15:45:38 PDT 2014 


4 获得 帮助 
如 果 想 知道 Hbase Shell 提供 哪些 功能 ,可 以 通过 该 命令 查看 。 


hbase (main) :009:0» help 


5. 退出 Shell 


| CBR Hadoo 大 数据 处 理 


M hbase (main) :010:0» exit 


bae m Pete 


1 创建 表 
KAH tabl , 列 族 名 为 colfaml 。 


hbase (main) :004:0> create 'tabl','colfaml' 
0 row(s) in 1.1480 seconds 


=> Hbase: :Table -tabl 


2 以 列表 的 形式 显示 所 有 数据 表 


hbase (main) :005:0> list 
TABLE 

tabl 

1 row(s) in 0.0630 seconds 


=> ["tabl"] 

3 查看 表 的 结构 

hbase (main) :005:0> describe 'tabl" 
DESCRIPTION ENABLED 


'tabl', (NAME-» 'colfaml', BLOOMFILTER- > 'ROW', VERSIONS=>'1', IN MEMORY=> 'false true ', 
KEEP DELETED CELLS=>'false', DATA BLOCK ENCODING=> 'NONE', TTL=> '2147483647', COMPRESSION-» ' 
NONE', MIN VERSIONS=> '0', BLOCKCACHE- > 'true', BLOCKSIZE- > '65536', REPLICATION SCOPE-» '0 
'} 

1 row(s) in 0.4110 seconds 


4 修改 表 的 结构 
首先 将 表 设 为 不 可 用 状态 : 


hbase (main) :011:0>disable 'tabl" 
0 row(s) in 1.4210 seconds 


添加 一 个 列 族 下 2': 


hbase (main) :012:0» alter 'tabl',NAME=> 'F2',VERSIONS-» 5 
Updating all regions with the new schema... 

1/1 regions updated 

Done 

0 row(s) in 1.2340 seconds 


hbase (main) :013:0» describe 'tabl' 

DESCRIPTION ENABLED 

'tabl', {NAME=> 'Fl', BLOOMFILTER=> 'ROW', VERSIONS=>'1', IN MEMORY=>'false', KE false EP_ 
DELETED CELLS=>'false', DATA BLOCK ENCODING=> 'NONE', TTL=> '2147483647', COMPR ESSION-» ' 
NONE', MIN VERSIONS-» '0', BLOCKCACHE- > 'true', BLOCKSIZE-» '65536', REP LICATION SCOPE-» '0 
'), {NAME=> 'F2', BLOOMFILTER- > 'ROW', VERSIONS-» '5', IN MEMOR Y=> 'false', KEEP DELETED - 
CELLS=>'false', DATA BLOCK ENCODING- > 'NONE', TTL=> '21 47483647', COMPRESSION- > 'NONE', 


MIN VERSIONS-» '0', BLOCKCACHE-» 'true', BLOCKSIZE- > '65536', REPLICATION SCOPE-» '0'), (NAME | SS 一 
—»'colfaml', BLOOMFILTER=> 'ROW', VERS IONS=>'1', IN MEMORY-» 'false', KEEP DEIETED CELLS=>' 
false', DATA BLOCK ENCODING=> 'NONE', TTL=> '2147483647', COMPRESSION=> 'NONE', MIN VERSIONS-» ' 
0', BLOCKCACHE-» 'true', BLOCKSIZE=> '65536', REPLICATION SCOPE-» '0'] 


删除 列 族 下 1 : 


hbase (main) :015:0>alter 'tabl',NAME-» 'Fl',METHOD-» 'delete" 
Updating all regions with the new schema... 
1/1 regions updated 
Done 
0 row(s) in 1.2310 seconds 


将 表 设 为 启用 状态 : 


hbase (main) :017:0» enable 'tabl' 
0 row(s) in 0.2640 seconds 

5 查询 表 是 否 存在 

hbase (main) :001:0>exists 'tabl' 


Table tabl does exist 
0 row(s) in 0.5700 seconds 


6 查询 表 是 否 可 用 

hbase (main):018:0»is enabled 'tabl' 
true 

0 row(s) in 0.0420 seconds 

7. 判断 表 是 否 不 可 用 

hbase (main):020:0»is disabled 'tabl' 
false 

0 row(s) in 0.0500 seconds 

8. 删除 表 

先 disable 表 , 然 后 drop 表 , 和 否则 报错 。 


hbase (main) :007:0>disable 'tabl" 
0 row(s) in 2.0590 seconds 


hbase (main) :008:0» drop 'tabl' 
0 row(s) in 1.1510 seconds 


Ead OM 操作 


Row Key 


创建 一 个 student 表 , 其 结构 如 表 6-5 所 示 。 
表 6-5 student 表 的 结构 


address 


info 


province city university height 


weight 


birthday 


zhangsan | Liaoning Dalian Dalian University of Technology 180 


80 


1995-08-23 


address 和 info 对 表 来 说 是 一 个 有 三 个 列 的 列 族 ,address 列 族 由 三 个 列 组 成 province, 


city 和 university, info 列 族 由 三 个 列 组 成 height, weight 和 birthday 组 成 。 当 然 也 可 以 根 
据 需 要 在 address 与 info 列 族 中 建立 更 多 的 列 ,如 : 把 telephone, QQ, Wechat 等 添加 到 
info 列 族 。 


1 创建 sudent 表 

hbase (main) :006:0> create 'student', 'address', 'info' 
0 row(s) in 0.8190 seconds 

=> Hbase: :Table - student 


2. 向 表 中 插入 记录 

hbase (main) :009:0» put 'student', 'zhangsan', 'info:height', '180" 

hbase (main) :010:0» put 'student', 'zhangsan', 'info:birthday', '1995- 08- 23" 
hbase (main) :011:0» put 'student', 'zhangsan', 'info:weight', '80" 

hbase (main) :013:0» put 'student', 'zhangsan', 'address:province', 'Liaoning' 
hbase (main) :014:0» put 'student', 'zhangsan' , 'address:city', 'Dalian' 

hbase (main) :014:0» put 'student', 'zhangsan', 'address:university', 'Dalian 
University of Technology" 


3, 获取 一 条 数据 

hbase (main) :013:0» get 'student', 'zhangsan" 

COLUMN CELL 
address:city timestamp- 1413359812918, value- Dalian 
address:province timestamp- 1413359797503, value=Liaoning 
address:university timestamp- 1413359836170, value- Dalian University 

of Technology 

info:birthday timestamp- 1413359757702, value= 1995- 08- 23 
info:height timestamp- 1413359741478, value- 180 
info:weight timestamp- 1413359782422, value- 80 


6 row(s) in 0.0540 seconds 


4 获取 一 个 ID. — A ARM BB 
hbase (main) :016:0» get 'student', 'zhangsan', 'info" 


COLUMN CELL 
info:birthday timestamp- 1413359757702, value= 1995- 08- 23 
info:height timestamp- 1413359741478, value- 180 
info:weight timestamp- 1413359782422, value- 80 


3 row(s) in 0.0620 seconds 


5 获得 一 个 ID. — 4 3 rh — ^ 30 89 A 33S 
hbase (main) :002:0» get 'student', 'zhangsan', 'info:height" 


COLUMN CELL 

info:height timestamp- 1413359741478, value- 180 
1 row(s) in 0.0430 seconds 
6 更 新 一 条 记录 


将 zhangsan 的 体重 改 成 70 千克 : 


hbase (main) :003:0» put 'student', 'zhangsan', 'info:weight', '70' = 
0 row(s) in 0.1040 seconds 


7 全 表 扫 描 
hbase (main) :019:0> scan 'student" 
ROW COLUMN-* CELL. 


zhangsan column=address:city, timestamp- 1413359812918, value- Dalian 

zhangsan column=address:province, timestamp- 1413359797503, value- Liaoning 

zhangsan  column- address:university, timestamp- 1413359836170, value= Dalian University 
of Technology 

zhangsan column-info:birthday, timestamp= 1413359757702, value= 1995- 08- 23 

Zhangsan column-info:height, timestamp- 1413359741478, value- 180 

Zhangsan column-info:weight, timestamp= 1413360430307, value- 70 


1 row(s) in 0.0630 seconds 


8. 删除 ID 为 zhangsan 的 值 的 info:weight 字段 

hbase (main) :020:0> delete 'student', 'zhangsan', 'info:weight' 
0 row(s) in 0.0170 seconds 

hbase (main) :001:0» get 'student', 'zhangsan" 


COLUMN CELL 
address:city timestamp- 1413359812918, value- Dalian 
address:province timestamp- 1413359797503, value- Liaoning 
address:university timestamp- 1413359836170, value- Dalian University 
of Technology 
info:birthday timestamp- 1413359757702, value= 1995- 08- 23 
info:height timestamp- 1413359741478, value- 180 


5 row(s) in 0.0570 seconds 


9 查询 表 中 有 多 少 行 

hbase (main) :003:0> count 'student' 
1 row(s) in 0.0450 seconds 

=>1 


10 将 整 张 表 清 空 
hbase (main) :015:0> truncate 'student' 
Truncating 'student' table (it may take a while): 
-Disabling table... 
-Dropping table... 
-Creating table... 
0 row(s) in 4.4580 seconds 


644 Hee 9 如 脚本 


既然 是 Shell 命令 ,当然 可 以 把 所 有 的 HBase Shell 命令 写 人 一 个 文件 内 , 像 Linux 
Shell 脚本 程序 那样 顺序 执行 。 如 有 个 文件 test. sh, 文 件 内 容 是 往 'student' 表 中 插入 数据 ， 
test. sh 内 容 如 下 : 


put 'student','lisi','info:height', 175" 

put 'student','lisi','info:birthday','1994- 12- 05" 

put 'student','lisi','info:weight', '85" 

put 'student','lisi','address:province', 'Liaoning' 

put 'student','lisi','address:city','Dalian' 

put 'student','lisi','address:university', 'Dalian University of Technology" 


执行 脚本 文件 : 


hadoop@ master:~$hbase shell test.sh 


0 row(s) 
0 row(s) 
0 row(s) 
0 row(s) 
0 row(s) 
0 row(s) 


in 0.1260 seconds 
in 0.0100 seconds 
in 0.0090 seconds 
in 0.0170 seconds 
in 0.0140 seconds 
in 0.0140 seconds 


HBase Shell; enter 'help« RETURN» ' for list of supported commands 
Type "exit« RETURN» " to leave the HBase Shell 
Version 0.96.2- hadoopl, r1581096, Mon Mar 24 15:45:38 PDT 2014 


下 面 扫描 一 遍 全 表 , 查 看 一 下 脚本 执行 结果 : 


hbase (main) :001:0> scan 'student" 


ROW 
lisi 
lisi 
lisi 


lisi 

lisi 

lisi 
1 row(s) 


COLUMN+ CELL 

column- address:city, timestamp- 1413361750627, value- Dalian 
column= address:province, timestamp= 1413361750608, value- Liaoning 
column- address:university, timestamp- 1413361750643, value=Dalian 
University of Technology 
column= info:birthday, timestamp- 1413361750582, value= 1994- 12- 05 
column- info:height, timestamp- 1413361750547, value-175 
column- info:weight, timestamp- 1413361750598, value- 85 

in 0.0690 seconds 


6.5 基于 API 使 用 HBase 


HBase 是 使 用 Java 编写 的 ,所 以 为 Java 提供 API 是 理所当然 的 事 。 利 用 这 些 API 可 
以 编写 出 功能 丰富 的 程序 ,对 HBase 进行 各 种 操作 。 


Bhl AR 简介 


要 对 HBase 表 进 行 操 作 ,需要 使 用 以 下 几 个 类 。 

1. HBaseConfiguration 类 

该 类 是 客户 端 必须 要 使 用 的 , 它 尝试 着 从 hbase-default. xml 和 hbase-site. xml 文件 中 
读 取 配置 信息 ,一 般 情 况 下 , HBaseConfiguration 使 用 构造 函数 进行 初始 化 。 
HBaseConfiguration. create() 方 法 初始 化 HBase 的 配置 文件 。 

2 HBaseAdmin 类 

该 类 封装 了 对 数据 表 结 构 进行 操作 的 接口 , 它 提供 的 方法 包括 : 创建 表 , 删 除 表 , 列 出 
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表 项 ,使 表 有 效 或 无 效 ,以 及 添加 或 删除 表 列 族 成 员 等 。 该 类 提供 的 方法 有 : ent 
* createTableC H TableDescriptor desc) 用 于 创建 数据 表 。 
deleteTable(byte[ ] tableName) 方 法 用 于 删除 表 。 
enableTableCbyte[ ] tableName) 方 法 用 于 使 表 有 效 。 
disableTable(byte[] tableName) 方 法 用 于 使 表 无 效 。 
tableExists( String tableName) 检 查 表 是 否 存在 。 
modifyTable(byte[ ] tableName,HTableDescriptor htd) 修 改 表 的 模式 ,是 异步 的 操 
作 , 可 能 需要 花费 一 定 的 时 间 。 
3. HTableDescriptor 类 
该 类 封装 了 表 相关 属性 与 操作 的 接口 。 该 类 提供 的 方法 有 : 
* addFamily(HColumnDescriptor) 添 加 一 个 列 族 。 
* removeFamily(byte[ ] column) 移 除 一 个 列 族 。 
getName() 获 取 表 的 名 字 。 
getValue(byte[ ] key) 获 取 属 性 的 值 。 
e setValue(String key,String value) 设 置 属性 的 值 。 
4. HColumnDescriptor 类 
该 类 维护 着 关于 列 族 的 信息 ,例如 版 本 号 ,压缩 设置 等 。 它 通常 在 创建 表 或 者 为 表 添 加 
列 族 时 使 用 。 列 族 被 创建 后 不 能 直接 修改 ,只 能 通过 删除 然后 重新 创建 的 方式 。 列 族 被 删 
除 时 , 列 族 里 面 的 数据 也 会 同时 被 删除 。 该 类 提供 的 方法 有 : 
。 getName() 获 取 列 族 的 名 字 。 
* getValue(byte[] key) 获 取 对 应 属性 值 。 
e setValue(String key.String value) 设 置 对 应 属性 值 。 


5. HTable 类 

可 以 用 来 和 HBase 表 直接 通信 。 此 方法 对 更 新 操作 来 说 是 非 线 程 安全 的 。 该 类 提供 
的 方法 有 : 
close() 释 放 所 有 的 资源 或 挂 起 内 部 缓冲 区 中 的 更 新 。 
exists(Get get) 检 查 Get 实例 所 指定 的 值 是 否 存在 于 HTable 的 列 中 。 
getEndKeys() 获 取 当 前 一 打开 的 表 每 个 区 域 的 结束 键 值 。 
getScanner(byte[ ] family) 获 取 当 前 给 定 列 族 的 scanner 实例 。 
getTableDescriptor() 获 取 当 前 表 的 HTableDescriptor 实例 。 
getTableName() 获 取 表 名 。 
isTableEnabled( HBaseConfiguration conf.String tableName) 检 查 表 是 否 有 效 。 
put(Put put) 向 表 中 添加 值 。 


6 Put 类 

该 类 用 来 对 单个 行 执行 添加 操作 。 该 类 提供 的 方法 有 : 

* add(byte[ ] family,byte[ ] qualifier. byte[ ] value) 将 指定 的 列 和 对 应 的 值 添 加 到 
Put 实例 中 。 

* add(byte[ ] family,byte[ ] qualifier,long ts, byte[ ] value) 将 指定 的 列 和 对 应 的 值 及 


Ret ae ee 
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nad (of Ta] C. Put 实例 中 。 

getRow() 获 取 Put 实例 的 行 。 

getRowLock() 获 取 Put 实例 的 行 锁 。 

getTimeStamp() 获 取 Put 实例 的 时 间 戳 。 

isEmpty() 检 查 familyMap 是 否 为 空 。 

* setTimeStamp(long timeStamp) 设 置 Put SHA HY HF [8] El. o 


7. Get 类 

该 类 用 来 获取 单个 行 的 相关 信息 。 本 类 提供 的 函数 有 : 

* addColumn(byte[ ] family.byte[ ] qualifier) 获 取 指 定 列 族 和 列 修 饰 符 对 应 的 列 。 
* addFamily(byte[ ] family) 通 过 指定 的 列 族 获取 其 对 应 列 的 所 有 列 。 

* setTimeRange(long minStamp-long maxStamp) 获 取 指 定 列 族 的 列 的 版 本 号 。 

e setFilter(Filter filter) 当 执行 Get 操作 时 设置 服务 器 端的 过 滤器 。 


8. Scan 类 
* scan. addFamily() 同 上 。 
addColumn() 同 上 。 
setMaxVersions(int maxVersions) 指 定 最 大 的 版 本 个 数 。 如 果 不 带 任何 参数 调用 。 
setMaxVersions ,表示 取 所 有 的 版 本 。 如 果 不 调 用 setMaxVersions, 只 会 取 到 最 新 
的 版 本 。 
setTimeRange(long minStamp.long maxStamp) throws IOException 指定 最 大 的 
时 间 惟 和 最 小 的 时 间 惟 ,只 有 在 此 范围 内 的 Cell 才能 被 获取 。 
set TimeStamp O fi 2E AY [8] #K o 
setFilter() 指 定 Filter 来 过 滤 掉 不 需要 的 信息 。 
setStartRow(byte[ ] startRow) 指 定 开 始 的 行 。 如 果 不 调用 , 则 从 表 头 开始 。 
setStopRow(byte[] stopRow) 指 定 结束 的 行 ( 不 含 此 行 )。 

* setBatch() 指定 最 多 返回 的 Cell 数目 。 用 于 防止 一 行 中 有 过 多 的 数据 ,导致 
OutofMemory 错误 。 


9. Result 类 

该 类 存储 Get 或 者 Scan 操作 后 获取 表 的 单行 值 。 使 用 此 类 提供 的 方法 可 以 直接 获取 
值 或 者 各 种 Map 结构 (key-value 对 ) 。 

* containsColumn(byte[ ] family,byte[ ] qualifier) 检 查 指定 的 列 是 否 存在 。 

。 getFamilyMap(byte[ ] family) 获 取 对 应 列 族 所 包含 的 修饰 符 与 值 的 键 值 对 。 

* getValue(byte[ ] family,byte[ ] qualifier) 获 取 对 应 列 的 最 新 值 。 


10. ResultScanner 类 

客户 端 获 取 值 的 接口 。 

。 close() 关 闭 scanner 并 释放 分 配给 它 的 资源 。 
* next() 获 取 下 一 行 的 值 。 


ase KRETA 


以 上 介绍 了 API 编程 操作 中 要 用 到 的 类 ,下 面 通过 经 典 的 代码 介绍 API 操作 HBase 
方法 。 


1 创建 表 

在 Eclipse 中 新 建 一 个 项 目 HBaseProj ,导入 解压 到 本 地 的 HBase 文件 夹 lib 目录 下 的 
所 有 jar 文件 ,新 建 一 个 CreateTable 类 ,这 里 列 出 完整 的 过 程 和 程序 代码 ,以 后 仅 列 出 关键 
语句 : 


package org.myorg; 

import java.io.IOException; 

import org.apache.hadoop.conf.Configuration; 

import org.apache.hadoop.hbase.HBaseConfiguration; 

import org.apache.hadoop.hbase.HColumnDescriptor; 

import org.apache.hadoop.hbase.HTableDescriptor; 

import org.apache.hadoop.hbase.MasterNotRunningException; 
import org.apache.hadoop.hbase.ZookeeperConnectionException; 
import org.apache.hadoop.hbase.client.HBaseAdmin; 

import org.apache.hadoop.hbase.util.Bytes; 


public class CreateTable ( 

public static void main(String[] args) throws MasterNotRunningException, 

ZookeeperConnectionException, IOException ( 
Configuration conf- HBaseConfiguration.create (); 
// 创 建 nBaseConfiguration 类 对 象 
conf.set ("hbase.zookeeper.quorum", "master,slavel,slave2"); 
// 设 置 Zookeeper 的 地 址 
HBaseAdmin admin- new HBaseAdmin (conf) ; 
// 创 建 HBaseAdmin 对 象 
HTableDescriptor tableDesc- new HTableDescriptor (Bytes.toBytes 
("student")); 
// 创 建 HTableDescriptor 对 象 ,该 对 象 的 表 名 为 student 
HColumnDescriptor colDesc addr- new HColumnDescriptor (Bytes .toBytes 
("address")); 
//& s HColumnDescriptor X} $ ,该 列 名 为 address 
tableDesc.addFamily (colDesc addr); 
HColumnDescriptor colDesc info- new HColumnDescriptor (Bytes.toBytes 
("info")); 
tableDesc.addFamily (colDesc info); 
admin.createTable (tableDesc); 
Boolean isAvailable- admin.isTableAvailable (Bytes.toBytes ("student")); 
// 检 查 表 是 否 可 用 ,返回 一 个 布尔 逻辑 值 
System.out.println ("student table availables is:"+isAvailable); 


H 


代码 分 析 : HBaseConfiguration. create() 初 始 化 HBase 配置 文件 ,通过 conf. set O WEE 
Zookeeper 的 地 址 ,这 里 应 注意 程序 是 在 客户 端 Windows 中 运行 的 ,所 以 ,在 C:\Windows\ 
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System32\drivers\etc\hosts 文件 中 应 该 有 各 服务 器 (master slavel .slave2) 的 IP。 新 建 一 
个 HBaseAdmin(conf) 对 象 admin, 通 过 admin 的 createTable() 方 法 创建 一 个 表 。 通 过 
HTableDescriptor 类 设置 表 名 ,通过 HColumnDescriptor 类 设置 列 名 ,通过 HTableDescriptor 类 
的 addFamily() 方 法 把 列 添加 到 表 中 。 


2 查看 表 的 信息 


TableName[] tablenames=admin.listTableNames () ; 
for (TableName tablename: tablenames) { 
System.out .print1n (tablename) ; 
} 
HTableDescriptor tabledesc- admin.getTableDescriptor (Bytes .toBytes 
("student")); 
System.out.println (tabledesc) ; 
} 


代码 分 析 : 通过 admin. list TableNamesO 3 f$: HBase 中 所 有 数据 表 的 表 名 ,然后 打印 
表 名 ;通过 admin. getTableDescriptor (Bytes. toBytes C" student") 获得 student # AY K fili 
述 , 然 后 输出 。 


3. 增加 列 族 


HTableDescriptor tabdes- admin.getTableDescriptor (Bytes .toBytes ("student")); 
HColumnDescriptor coldes- new HColumnDescriptor (Bytes .toBytes ("newcolumn")); 
tabdes .addFamily (coldes); 

admin.disableTable ("student"); 

admin.modifyTable "student", tabdes); 

admin.enableTable (Bytes.toBytes ("student")); 


代码 分 析 : 首先 获取 student 表 的 H TableDescriptor ,创建 一 个 新 的 名 字 为 newcolumn 
的 HColumnDescriptor, 然 后 加 入 表 描 述 中 。 接 着 使 表 不 可 用 ,修改 表 , 恢 复 表 到 启用 状态 。 


4 删除 表 


Configuration conf=HBaseConfiguration.create (); 
conf.set ("hbase.zookeeper.quorum", "master, slavel,slave2") ; 
HBaseAdmin admin- new HBaseAdmin (conf) ; 
String tableName- "student"; 
if (admin.tableExists (tableName)) { // 检 查 表 是 否 存在 
admin.disableTable (tableName) 7 
// 使 表 失 效 
admin.deleteTable (tableName) ; 
// 删 除 表 
System.out .println (tableName+ " has been deleted."); 
jelse{ 
System.out.println(" the table does not exist."); 
} 


代码 分 析 : 通过 HBaseAdmin() 类 的 tableExists(tableName) 方 法 判断 该 表 存 不 存在 ， 
若 存 在 , 先 用 disableTable(tableName) 使 表 失 效 ,再 使 用 deleteTable(tableName) 删 除 表 。 
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通过 API 可 以 对 HBase 表 中 的 数据 进行 查询 增加、 修改 ,删除 等 操作 ,对 应 的 方法 为 
put,get 和 delete。 下 面 分 别 加 以 介绍 。 


1 插入 单行 数据 


HTable table- new HTable (conf, "student") ; 

// 创 建 一 个 HTable 3c ffi 

Put put- new Put (Bytes.toBytes ("maliu")); 

// 创 建 一 个 Put 实例 ,对 应 的 关键 字 为 maliu 

put.add (Bytes.toBytes ("address"), Bytes.toBytes ("province"), Bytes.toBytes 
("Liaoning") ); 

//f& put 实例 中 添加 一 个 单元 格 的 值 , 列 族 为 address, 列 名 为 province, 值 为 liaoning 
put.add(Bytes.toBytes ("address"), Bytes.toBytes ("city"), Bytes.toBytes 
("shenyang")) ; 

put .add (Bytes .toBytes ("address") , Bytes .toBytes ("university"),Bytes.toBytes 
("Northeastern University")); 

put .add (Bytes .toBytes ("info"),Bytes.toBytes ("hight"),Bytes.toBytes ("168") ) ; 
put .add (Bytes .toBytes ("info"),Bytes.toBytes ("weight"),Bytes.toBytes ("60") ); 
put .add (Bytes.toBytes ("info"), Bytes.toBytes ("birthday"), Bytes.toBytes 
("1995- 06- 06") ) ; 

table.put (put) ; 

// 调 用 Hable 的 put 方法 把 数据 存 人 数据 库 中 


代码 分 析 : 本 段 代码 中 用 到 了 Put 类 的 add(byte[ ] family. byte[ ] qualifier, byte[ ] 
value) 方 法 ,因此 需要 使 用 Bytes. toBytes("String") 方 法 把 字符 串 转 化 为 字 节 数组 。 


2 插入 多 行 数据 


HTable table- new HTable (conf, "student"); 

List« Put» listput- new ArrayList« Put» (); 

// 创 建 一 个 列表 ,用 于 存放 多 个 Put 类 对 象 

Put putl- new Put (Bytes.toBytes ("zhanggiang")); 
putl.add("address".getBytes(), "province".getBytes(), "liaoning".getBytes ()); 
listput .add (put1) ; 

// 生 成 一 个 以 zhanggiang 为 行 关键 字 的 行 数据 

Put put2- new Put (Bytes .toBytes ("ligang")); 

put2.add ("info".getBytes () , "weight" .getBytes () , "66" .getBytes ()) ; 
listput .add (put2) ; 

// 生 成 一 个 以 ligang 为 关键 字 的 行 数据 

table.put (listput); 

// 使 用 table 的 put 方 法 将 数据 一 次 插入 表 中 


3. 根据 关键 字 删 除 一 条 数据 


Configuration conf-HBaseConfiguration.create (); 


conf.set ("hbase.zookeeper.quorum", "master, slavel,slave2") ; 


HTable table-new HTable (conf, "student") ; // 创 建 一 个 BTable 的 实例 
Delete delete- new Delete (Bytes.toBytes ("wangwu") ) ; 
/ [wangwu 为 将 要 删除 的 关键 字 


table.delete (delete); 
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table.close(); MESE 


4. 单 记录 查询 
相对 于 数据 的 插入 与 删除 来 说 ,数据 的 查询 相对 较为 复杂 ,将 重点 讨论 。 查 询 分 为 单 记 


录 查 询 和 多 记录 查询 。 单 记录 查询 通过 RowKey 在 表 中 查询 某 一 行 的 数据 , HTable 提供 
T get 方法 完成 单 记录 查询 。 多 记录 查询 通过 制定 一 段 RowKey 的 范围 进行 查询 ,HTable 
提供 了 getScanner 方法 完成 批量 查询 。 


1) 获得 单元 格 数 据 


HTable table-new HTable (conf, "student") ; // 创 建 一 个 HTable 的 实例 
Get get- new Get ("maliu".getBytes ()) ; 

Result result- table.get (get); 

byte[] value-result.getValue ("address".getBytes (), "city".getBytes ()); 
// 获 取 result 对 象 的 address 列 族 ,city 列 的 值 

System.out.println ("student.address.city:"*Bytes.toString (value) ); 


2) 获得 单条 记录 的 数据 


HTable table- new HTable (conf, tablename) ; 

Get g=new Get (Bytes.toBytes (rowKey) ) ; 

// 这 里 的 rowKey 为 一 字符 串 ,为 关键 字 

Result r-table.get (g); 

for (Cell cell: r.rawCells())( 
System.out.print ("47 # : "+ new String (CellUtil.cloneRow (cell))); 
System.out .print (" 列 族 : "+ new String(CellUtil.cloneFamily (cell))); 
System.out .print (" Jl] : "+ new String (CellUtil.cloneQualifier (cell))); 
System.out.print (" 值 : "+ new String (CellUtil.cloneValue (cell))); 
System.out .print1n ("Hj[B]f: "+ cell.getTimestamp ()); 

} 


代码 分 析 : 本 段 代 码 较为 简单 ,根据 关键 字 获 得 表 中 的 一 条 数据 ,输出 数据 时 ,不 再 使 


用 以 前 的 函数 。 在 新 版 本 中 ,使 用 CellUtil. cloneFamily (cell) 获得 列 族 名 ,用 Cell Util. 
cloneQualifier(cell) 获 得 列 名 ,用 CellUtil. cloneValue(cell) 获 得 单元 格 的 值 。 其 中 Cell 为 
org. apache. hadoop. hbase. Cell 类 , 即 单元 格 。 


5. 扫描 部 分 数据 


Configuration conf- HBaseConfiguration.create (); 

conf.set ("hbase.zookeeper.quorum", "master, slavel,slave2"); 

HTable table=new HTable (conf, "student") ; // 创 建 一 个 HTable 的 实例 

Scan s- new Scan (); 

s.addColumn (Bytes .toBytes ("address"), Bytes.toBytes ("province")); 
// 添 加 列 族 address 中 的 province Jil 

s.addColumn (Bytes .toBytes ("address"), Bytes.toBytes ("city")); 
// 添 加 列 族 address 中 的 city 列 

s.addFamily (Bytes.toBytes ("info")); 


// 添 加 列 族 info 
s.setStartRow (Bytes.toBytes ("gao") ) ; // 指 定 开始 的 行 
s.setStopRow (Bytes.toBytes ("1i")); // 指 定 结束 的 行 (不 含 此 行 ) 


ResultScanner rs=table.getScanner (s); 
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for (Result r:rs) { e 
Cell[] cell-r.rawCells(); 
int i-0; 
int cellcount- r.rawCells () length; 
System.out.print (" 行 键 : "* Bytes.toString (CellUtil.cloneRow (cell[i]))); 
for (i=0;i< cellcount;i++) { 
System.out.print (" "+ Bytes .toString (CellUtil.cloneFamily (cell[i]))); 
System.out.print (": "+Bytes.toString (CellUtil.cloneQualifier (cell[i]))); 
System.out.print(" "+Bytes.toString (Cel1Util.cloneValue (cell [i]))); 
} 
System.out .print1n (); 
} 
table.close(); // 关 闭 表 , 释 放 资 源 


代码 分 析 : 本 段 代 码 使 用 了 Scan 类 ,使 用 addColumn(Bytes. toBytes(" 列 族 名 ")， 
Bytes. toBytes(" 列 名 ")) 添 加 某 族 列 下 的 某 一 列 , 使 用 addFamily(Bytes. toBytes(" 列 族 
名 ")) 添 加 该 列 族 中 的 所 有 列 到 Scan 中 ,使 用 s. setStartRow (Bytes. toBytes("gao")) 设 置 
扫描 的 数据 从 "gao" 开 始 ,s. setStopRow(Bytes. toBytes("li")) 设 置 结束 行 ,其 中 "li" 不 包含 
在 其 中 。 


6 显示 表 中 指定 时 间 惟 范围 内 的 数据 


Configuration conf- HBaseConfiguration.create () ; 
conf.set ("hbase.zookeeper.quorum", "master, slavel,slave2"); 
HTable table- new HTable (conf, "student") ; // 创 建 一 个 HTable 的 实例 
Scan s- new Scan () 7 
s.setTimeStamp (NumberUtils.toLong ("1370336286283") ) ; 
s.setTimeRange (NumberUtils.toLong ("1413878722100"), NumberUtils.toLong 
("1418623393463") ) ; 
ResultScanner rs=table.getScanner (s); 
for (Result r:rs){ 
Cell[] cell-r.rawCells(); 
int i-0; 
int cellcount- r.rawCells () length; 
System.out.print ("{7 # : "+ Bytes.toString(CellUtil.cloneRow (cell[i]))); 
for (i=0;i< cellcount;i++){ 
System.out.print (" "+ Bytes .toString (CellUtil.cloneFamily (cell[i]))); 
System.out.print (": "+Bytes.toString (Cel1Util.cloneQualifier (cell [i]))); 
System.out.print(" "+Bytes.tostring (Cel1Util.cloneValue (cell [i]))); 
System.out.print ("Bt |B] fk : "+ cell [i] .getTimestamp ()); 
} 
System.out.println(); 
H 
table.close(); // 释 放 资 源 


代码 分 析 : 本 段 代 码 使 用 了 Scan 类 , 使 用 setTimeStamp (NumberUtils. toLong 
("1370336286283") i EISE [8] RE. (E JH setTimeRange ( NumberUtils. toLong ( " 1413878722100"), 
NumberUtils. toLong("1418623393463 ")) i HE n [E] #49 90 Fal. 


654 Ate 的 应 用 与 示例 
在 6.5.3 小 节 中 ,使 用 scan() 方 法 获得 一 批 数据 ,其 实在 scan() 过 程 中 ,可 以 通过 一 些 
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设置 实现 更 复杂 的 查询 ,提高 查询 的 效率 。Filter 过 滤器 就 是 一 个 强大 的 数据 过 滤 工 具 ,下 
面 就 来 介绍 一 下 Filter 过 滤器 。setFilter 方法 可 以 给 scan() 添 加 过 滤器 ,这 也 是 分 页 、 多 条 


件 查询 的 基础 。 


介绍 Filter 之 前 , 先 来 看 一 下 两 个 参数 类 。 


1 参数 类 


有 两 个 参数 类 在 各 类 Filter 中 经 常 出 现 , 先 介绍 一 下 。 
D 比较 运算 符 CompareFilter. CompareOp 
比较 运算 符 用 于 定义 比较 关系 ,可 以 有 以 下 几 类 值 供 选 择 : 


EQUAL 

GREATER 
GREATER_OR_EQUAL 
LESS 
LESS OR EQUAL 
NOT. EQUAL 


相等 
大 于 
大 于 等 于 
小 于 
小 于 等 于 
不 等 于 


2) 比较 器 ByteArrayComparable 
通过 比较 器 可 以 实现 多 样 化 目标 匹配 效果 ,比较 器 有 以 下 子 类 可 以 使 用 : 


BinaryComparator 
BinaryPrefixComparator 
BitComparator 
NullComparator 
RegexStringComparator 


SubstringComparator 


匹配 完整 字 节 数组 
匹配 字 节 数组 前 级 
位 值 比较 器 
空 值 比较 器 

正则 表达 式 匹 配 
子 串 匹配 


2 结构 (Stmuctural) 过 滤器 一 一 FilterList 

FilterList 代表 一 个 过 滤器 链 , 它 可 以 包含 一 组 即将 应 用 于 目标 数据 集 的 过 滤器 ,过 滤 
器 间 具 有 “与 ”FilterList. Operator. MUST. PASS ALL fil “3%” FilterList. Operator. 
MUST PASS ONE 关系 。 比 如 ,两 个 "或 ?关系 的 过 滤器 的 写法 : 


FilterList list=new FilterList (FilterList.Operator.MUST PASS ONE); 
// 数 据 只 要 满足 一 组 过 滤器 中 的 一 个 就 可 以 
SingleColumnValueFilter filterl- new SingleColumnValueFilter ( 


ck, 

column, 

CompareOp.EQUAL, 
Bytes.toBytes ("my value") 
i 

list.add(filterl); 


SingleColumnValueFilter filter2- new SingleColumnValueFilter ( 


tE; 
column, 


CompareOp.EQUAL, 


); 


Bytes.toBytes ("my other value") 
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list.add(filter2); 
Scan scan- new Scan() ; 
scan.setFilter (list); 


3. 3i] fé ict 38 38 — SingleColummValueFilter 

SingleColumnValueFilter 用 于 测试 列 值 相 等 (CompareOp. EQUAL) ,不 等 (CompareOp. 
NOT_EQUAL) ,或 单 侧 范围 《〈e. g., CompareOp. GREATER). 

1) 比较 的 关键 字 是 一 个 字符 数组 


SingleColumValueFilter (byte[] family, byte[] qualifier, CampareFilter.CompareOp compareOp, byte 
[] value) 


代码 如 下 : 


Configuration conf=HBaseConfiguration.create (); 
conf .set ("hbase.zookeeper.quorum", "master, slavel,slave2"); 
HTable table- new HTable (conf, "student"); 
FilterList filterList=new FilterList(FilterList.Operator.MUST PASS ALL); 
SingleColumnValueFilter filter- new SingleColumnValueFilter ( 
Bytes.toBytes ("info"), 
Bytes.toBytes ("birthday"), 
CompareOp.EQUAL, 
Bytes.toBytes ("1995- 07- 15") 
) 
filterList.addFilter (filter); 
Scan scan- new Scan() ; 
Scan.setFilter(filterList); 
ResultScanner rs=table.getScanner (scan); 
for (Result r: rs) ( 
for (Cell cell:r.rawCells())( 
System.out.print (" 行 键 : "+ new String(CellUtil.cloneRow(cell))); 
System.out.print (" 列 族 : "+ new String(CellUtil.cloneFamily (cell))); 
System.out.print (" Ji] : "+new String(CellUtil.cloneQualifier(cell))); 
System.out.print (" 值 : "+ new String (Cel1Util.cloneValue (cell))); 
System.out.println ("By [a] Æ : "+ cell.getTimestamp ())7 


H 

table.close(); 

此 段 代 码 过 滤 出 来 的 数据 为 birthday 29. 1995-07-15 X null 的 记录 。 

2) 比较 的 关键 字 是 一 个 比较 器 

SingleColumnValueFilter (byte [] family, byte[] qualifier, CampareFilter. CompareOp compareOp, 
ByteArrayComparable comparator) 

比较 的 关键 字 是 比较 器 ByteArrayComparable, 

该 节 主 要 是 针对 SingleColumnValueFilter 的 第 二 种 构造 函数 使 用 情况 做 了 一 些 举例 。 
CD. 支持 值 比较 的 正则 表达 式 
示例 代码 如 下 : 


RegexStringComparator 


Configuration conf-HBaseConfiguration.create (); 
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oud conf .set ("hbase.zookeeper.quorum", "mMaster,slavel,slave2"); 
HTable table- new HTable (conf, "student"); 
FilterList filterList-new FilterList(FilterList.Operator.MUST PASS ALL); 
RegexStringComparator comp- new RegexStringComparator ("1995."); 
// 正 则 表达 式 较为 复杂 ,相关 知识 可 以 查询 相关 手册 


SingleColumnValueFilter filter- new SingleColumnValueFilter( 


Bytes.toBytes ("info"), // 列 族 为 info 
Bytes.toBytes ("birthday"), //9V 78 birthday 
CompareOp.EQUAL, // 运 算 为 相等 
comp 


) 7 

filterList .addFilter (filter); 

Scan scan=new Scan () ; 

Scan.setFilter(filterList); 

ResultScanner rs- table.getScanner (scan) ; 

for (Result r: rs) ( 

for (Cell cell:r.rawCells()) { 

System.out.print ("47 #Ë : "+ new String (CellUtil.cloneRow(cell))); 
System.out.print (" 列 族 : "+ new String (CellUtil.cloneFamily (cell) )); 
System.out.print (" 列 : "+ new String (Cel1Util.cloneQualifier (cell))); 
System.out.print (" ff : "+new String (CellUtil.cloneValue (cell) )); 
System.out.println ("Mt [a] # : "+ cell.getTimestamp ()) ; 


} 
table.close(); 


(2) 检测 一 个 子 串 是 否 存在 于 值 中 (大 小 写 不 敏感 ) 一 一 SubstringComparator 


Configuration conf=HBaseConfiguration.create () 7 
conf.set ("hbase.zookeeper.quorum", "master, slavel,slave2"); 
HTable table- new HTable (conf, "student"); 
FilterList filterList-new FilterList(FilterList.Operator.MUST PASS ALL); 
SubstringComparator comp- new SubstringComparator ("04- 18") ; 
//SubstringComparator () 构 造 方法 传人 的 是 要 查询 的 子 字符 串 
SingleColumnValueFilter filter- new SingleColumnValueFilter ( 
Bytes.toBytes ("info"), 
Bytes.toBytes ("birthday"), 
CompareOp.EQUAL, 
comp 
) 7 
filterList.addFilter (filter); 
Scan scan- new Scan () ; 
Scan.setFilter(filterList); 
ResultScanner rs=table.getScanner (scan); 
for (Result r: rs) ( 
for (Cell cell:r.rawCells()) { 
System.out.print (EE: Ue new String(CellUtil.cloneRow(cell))); 
System.out.print (" 列 族 : "+ new String(CellUtil.cloneFamily (cell))); 
System.out.print (" Jl] : "+new String (CellUtil.cloneQualifier (cell))); 
System.out.print (" fl: "+ new String (CellUtil.cloneValue (cell))); 


System.out.println ("BY [i] Bi: "+ cell.getTimestamp()); 


} 
table.close(); 


4 键 值 元 数据 

由 于 HBase 采用 键 值 对 保存 内 部 数据 , 键 值 元 数据 过 滤器 用 于 评估 一 行 的 键 
(ColumnFamily: Qualifiers) 是 否 存 在 。 

1) 基于 列 族 过 滤 数 据 的 FamilyFilter 

构造 函数 : 


FamilyFilter (CompareFilter.CompareOp familyCompareOp, ByteArrayComparable 
familyComparator) 


示例 关键 代码 如 下 : 


HTable table=new HTable (conf, "student"); 

FamilyFilter ffl=new FamilyFilter( 

CompareFilter.CompareOp.EQUAL, new BinaryPrefixComparator (Bytes .toBytes 
("addr"))); 

// 表 中 存在 以 addr 打头 的 列 族 address, 过 滤 结 果 为 该 列 族 所 有 行 

Scan scan=new Scan() 7 

Scan.setFilter (ffl); 

ResultScanner rs=table.getScanner (scan); 


AFR: 如 果 希 望 查找 的 是 一 个 已 知 的 列 族 , 则 使 用 scan. addFamily (family) KG f JA 
过 滤器 效率 更 高 ;由 于 目前 HBase 对 多 列 族 支持 不 完善 ,所 以 该 过 滤器 目前 用 途 不 大 。 

2) 基于 限定 符 Qualifier( 列 ) 过 滤 数 据 的 QualifierFilter 

构造 函数 : 


QualifierFilter (CompareFilter.CompareOp op, ByteArrayComparable 
qualifierComparator) 


示例 代码 如 下 : 


HTable table- new HTable (conf, "student"); 
QualifierFilter ffl- new QualifierFilter( 
CompareOp.EQUAL, 
new BinaryPrefixComparator (Bytes .toBytes ("city"))); 
// 表 中 存在 以 city 开 头 的 列 , 过 滤 结 果 为 所 有 行 的 该 列 数据 
Scan scan- new Scan() ; 
scan.setFilter (ffl); 
ResultScanner rs- table.getScanner (scan); 


3) 基于 列 名 (Qualifier) 前 级 过 滤 数 据 的 ColumnPrefixFilter 
构造 函数 : 


ColumnPrefixFilter (byte[] prefix) 


该 功能 用 上 例 中 的 QualifierFilter 也 能 实现 。 
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AFE: 一 个 列 名 是 可 以 出 现在 多 个 列 族 中 的 ,该 过 滤器 将 返回 所 有 列 族 中 匹配 
的 列 。 
示例 代码 如 下 ， 


HTable table- new HTable (conf, "student"); 

ColumnPrefixFilter ffl- new ColumnPrefixFilter (Bytes.toBytes ("univer")); 

// 查 询 以 univer Jf 3 f] , student 表 中 有 university 列 ,返回 的 数据 是 全 部 的 university 列 的 值 
Scan scan=new Scan () 7 

scan.setFilter (ff1); 

ResultScanner rs=table.getScanner (scan) ; 


4) 基于 多 个 列 名 (Qualifier) 前 级 过 滤 数 据 的 MultipleColumnPrefixFilter 

说 明 : MultipleColumnPrefixFilter 和 ColumnPrefixFilter 行为 差不多 ,但 可 以 指定 多 
个 前 级 。 

示例 代码 如 下 : 

HTable table- new HTable (conf, "student"); 

byte[] [] prefixes-new byte[][] (Bytes.toBytes ("city"), Bytes.toBytes 

("university") }; 

// 返 回 所 有 行 中 以 city RA university 打头 的 列 的 数据 

MultipleColumnPrefixFilter ff- new MultipleColumnPrefixFilter (prefixes); 

Scan scan- new Scan() ; 


scan.setFilter (ff); 
ResultScanner rs=table.getScanner (scan) ; 


5) 基于 列 范围 (不 是 行 范围 ) 过 滤 数 据 ColumnRangeFilter 

说 明 : 

* 可 用 于 获得 一 个 范围 的 列 ,例如 ,如 果 一 行 中 有 百 万 个 列 ,但 是 只 希望 查看 列 名 为 
bbbb 到 dddd 的 范围 。 

。 该 方法 从 HBase 0.92 版 本 开始 引入 。 

。 一 个 列 名 是 可 以 出 现在 多 个 列 族 中 的 ,该 过 滤器 将 返回 所 有 列 族 中 匹配 的 列 。 

构造 函数 : 


ColumnRangeFilter (byte[] minColumn, boolean minColumnInclusive, byte[] 
maxColumn, boolean maxColumnInclusive) 


参数 解释 : 

minColumn: 列 范围 的 最 小 值 ,如 果 为 空 , 则 没有 下 限 ; 
minColumnInclusive: 列 范围 是 否 包含 minColumn ; 
maxColumn: 列 范围 最 大 值 , 如 果 为 空 , 则 没有 上 限 ; 
maxColumnInclusive; 列 范围 是 否 包含 maxColumn。 
示例 代码 : 

HTable table=new HTable (conf, "student"); 

byte[] startColumn- Bytes.toBytes ("c"); 


byte[] endColumn- Bytes .toBytes ("h"); 
// 返 回 所 有 列 中 从 < 到 Ph 打头 的 范围 的 数据 ,本 例 中 实际 返回 city 列 的 数据 。 
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ColumnRangeFilter ff- new ColumnRangeFilter(startColumn, true, endColumn, true); 
Scan scan- new Scan() ; 
scan.setFilter (ff); 


ResultScanner rs=table.getScanner (scan) ; 


6) RowKey 

(1) 当 需 要 根据 行 键 特征 查找 一 个 范围 的 行 数据 时 ,使 用 Scan 的 startRow 和 
stopRow 会 更 高 效 ,但 是 ,startRow 和 stopRow 只 能 匹配 行 键 的 开始 字符 ,不 能 匹配 中 间 包 
含 的 字符 : 


byte[] startColumn- Bytes.toBytes ("aaa") ; 
byte[] endColumn- Bytes .toBytes ("bbb") ; 
Scan scan- new Scan (startColumn, endColumn) ; 


(2) 当 需 要 针对 行 键 进行 更 复杂 的 过 滤 时 ,可 以 使 用 RowFilter。 


RowFilter (CompareFilter.CompareOp rowCampareOp, ByteArrayCamparable rowComparator) 
RowKey 示例 代码 如 下 : 


HTable table=new HTable (conf, "student"); 
byte[] startColumn- Bytes.toBytes ("aaa") ; 
byte[] endColumn- Bytes .toBytes ("kkk") ; 

// 本 例 返回 关键 值 范围 在 aaa 5j kkk 之 间 的 数据 
Scan scan=new Scan (startColumn,endColumn); 
ResultScanner rs-table.getScanner (scan); 


(3) 使 用 RowFilter 对 行 关键 字 进 行 过 滤 。 
示例 代码 如 下 : 


HTable table- new HTable (conf, "student"); 
RowFilter rf-new RowFilter( 
CompareOp.EQUAL, 
new SubstringComparator(" an ") 
) 7 
Scan scan- new Scan () ; 
Scan.setFilter(rf); 
ResultScanner rs=table.getScanner (scan); 


ER: 实测 过 程 中 ,程序 未 返回 预想 的 结果 ,可 能 是 因为 RowFilter 和 Substring- 
Comparator("") 配 合 得 不 好 。 

7) PageFilter 

指定 页 面 行 数 ,返回 对 应 行 数 的 结果 集 。 

需要 注意 的 是 ,该 过 滤器 并 不 能 保证 返回 的 结果 行 数 小 于 等 于 指定 的 页 面 行 数 ,因为 过 
滤器 是 分 别 作 用 到 各 个 region server 的 , 它 只 能 保证 当前 region 返回 的 结果 行 数 不 超过 指 
定 页 面 行 数 。 

构造 函数 : 
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PageFilter (long pageSize) 
示例 代码 如 下 : 


HTable table- new HTable (conf, "student"); 
Scan scan- new Scan () ; 
Scan.setStartRow (Bytes .toBytes ("a")) ; 
//PageFilter pf- new PageFilter (5L); // 此 处 设置 过 滤器 只 查询 5 行 
//scan.setFilter (pf); 
ResultScanner rs- table.getScanner (scan) ; 
for (Result r: rs.next(5)) ( 
for (Cell cell: r.rawCells()) { 

System.out.println("Rowkey: "+Bytes.toString (r.getRow ()) 
+"  Familiy:Quilifier: " 
*Bytes.toString(CellUtil.cloneQualifier (cell)) 
+" Value: " 

+ Bytes .toString (CellUtil.cloneValue (cell)) 
+" Time: "+cell.getTimestamp ()); 


EN .Close () 7 
代码 分 析 : 由 于 该 过 滤器 并 不 能 保证 返回 的 结果 行 数 小 于 等 于 指定 的 页 面 行 数 ,所 以 
更 好 的 返回 指定 行 数 的 办 法 是 ResultScanner. next(int nbRows) 。 
8) SkipFilter 
根据 整 行 中 的 每 个 列 来 做 过 滤 ,只 要 存在 一 列 不 满足 条 件 , 整 行 都 被 过 滤 掉 。 
例如 ,如果 一 行 中 的 所 有 列 代表 的 是 不 同 物品 的 重量 , 则 真实 场景 下 这 些 数值 都 必须 大 
F 零 ,希望 将 那些 包含 任意 列 值 为 0 的 行 都 过 滤 掉 。 
在 这 个 情况 下 ,结合 ValueFilter 和 SkipFilter 共同 实现 该 目的 : 


scan. setFilter (new SkipFilter (new ValueFilter (CompareOp.NOT EQUAL, new BinaryComparator 
(Bytes .toBytes (0)))); 


构造 函数 : 
SkipFilter (Filter filter) 
示例 代码 : 


HTable table=new HTable (conf, "student"); 

Scan scan- new Scan () ; 

scan.setFilter (new SkipFilter (new ValueFilter (CompareOp.NOT EQUAL, 
new BinaryComparator (Bytes .toBytes ("66") ) ) ) ) 7 

ResultScanner rs=table.getScanner (scan) ; 

for (Result r:rs) { 

for (Cell cell:r.rawCells()) { 

System.out.print eg + Bytes .toString (CellUtil.cloneRow (cell))); 
System. out.print (" 列 族 : "+ Bytes. toString (CellUtil.cloneFamily (cell))); 
System.out.print Cn: "+ Bytes .toString (CellUtil.cloneQualifier (cell))); 
System.out.print ("fÉ : "+ Bytes.toString(CellUtil.cloneValue (cell) )); 


System.out.println ("Hj|B]Ék : "+ ce1l.getTimestamp()); 


} 
table.close(); // 释 放 资 源 


代码 分 析 : 本 例 通过 设置 ,过 滤 了 不 等 于 66 的 行 ,也 就 是 结果 集中 没有 等 于 66 的 行 。 
9) Utility 一 FirstKeyOnlyFilter 
该 过 滤器 仅仅 返回 每 一 行 中 的 第 一 个 cell 的 值 ,可 以 用 于 高 效 地 执行 行 数 统计 操作 。 


Configuration conf- HBaseConfiguration.create (); 
conf.set ("hbase.zookeeper.quorum", "slavel, slave2"); 
HTable table-new HTable (conf, "student"); 
FirstKeyOnlyFilter fkof- new FirstKeyOnlyFilter(); 
Scan scan- new Scan() ; 
scan.setFilter (fkof) ; 
ResultScanner rs=table.getScanner (scan) ; 
int sum 0; 
for (Result r:rs) { 

sumt+ +7 
H 
System.out.println(" 本 表 共 有 : "+sumt" 条 记录 。"); 


6.6 MapReduce 操作 HBase 数据 


运行 于 Hadoop 之 上 的 HBase 理所当然 地 支持 MapReduce, HBase 提供 了 几 个 与 
MapReduce 模型 下 相近 的 类 ,这些 类 将 HBase 的 实现 与 使 用 细节 进行 了 很 好 的 封装 ,使 用 
户 能 很 方便 地 进行 开发 。 下 面 对 这 些 类 进行 简要 的 介绍 。 


1. TableMapper< KEYOUT, VALUEOUT> 类 
public abstract class TableMapper< KEYOUT, VALUEOUT> 


父 类 为 org. apache. hadoop. mapreduce. Mapper < ImmutableBytesWritable, Result, 
KEYOUT,VALUEOUT>. 
继承 自 Mapper 基 类 并 增加 了 需要 的 输入 key 5j value 对 。 


2 TableReducer< KEYINVALUEINKEYOUT> 类 


public abstract class TableReducer< KEYIN, VALUEIN, KEYOUT> 


父 类 为 org. apache. hadoop. mapreduce. Reducer < KEYIN, VALUEIN, KEYOUT, 
Mutation 3E , 

该 类 继承 自 Reducer 基 类 ,并 增加 了 需要 的 key 与 value 输入 /输出 类 ,同时 输入 的 
key/value 对 以 及 输出 的 键 值 是 上 个 Map 阶段 输出 的 值 , 当 用 TableOutputFormat 类 输出 
时 必须 是 Put 或 Delete 实例 。 

该 类 还 有 一 个 子 类 IdentityTableReducer, 它 能 够 被 细 化 为 子 类 以 实现 类 似 的 特征 或 用 
户 需要 的 代码 。 它 还 有 强化 输出 值 到 具体 基本 类 型 的 优势 。 
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3, TableInputFormat 
TableInputFormat 类 继承 自 TableInputFormatBase 类 ,实现 了 org. apache. hadoop. 
conf. Configurable. AA fe HIE HBase 列 数据 转换 成 为 供 Map/Reduce 使 用 的 格式 。 


4 TableOutputFormat 类 

TableOutputFormat < KEY > 2 4E 7K 自 org. apache. hadoop. mapreduce. OutputFormat 
—KEY.Mutation- 3:34 f org. apache. hadoop. conf. Configurable. 该 类 能 够 把 Map/ Reduce 
输出 值 写 人 HBase 表 。 当 输出 值 必须 是 Put BK Delete 实例 时 ,key 将 会 被 忽略 。 


5. TableMapReduceUtil 类 
该 类 用 于 在 H Base 集群 中 建立 MapReduce 作业 。 该 类 中 init TableMapperJob O 77 3X 
F 在 提交 作业 前 对 作业 进行 设置 。 它 的 常用 形式 描述 如 下 : 
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public static void initTableMapperJob ( 
byte[] table, // 二 进 制 形式 的 表 名 ,从 该 表 读 取 数 据 


Scan scan, // 带 列 名 ,时 间 范 围 的 列 实例 

Class«? extends TableMapper> mapper, // 将 要 使 用 的 Mapper 类 
Class< ?> outputKeyClass, //output 类 

Class« ?» outputValueClass, / /output 值 类 
org.apache.hadoop.mapreduce.Job job) //MapReduce Job 


throws IOException 
TableMapReduceUtil 类 还 有 另 一 方法 init TableReducerJob O , 它 常用 形式 描述 如 下 : 


public static void initTableReducerJob ( 


String table // 将 要 往 其 中 写 人 数据 的 表 名 
Class«? extends TableReducer> reducer // 将 要 使 用 的 ruducer 类 
org.apache.hadoop.mapreduce.Job job) //MapReduce Job 


throws IOException 


在 提交 作业 之 前 ,使 用 它 进行 适当 的 Job 参数 设置 。 当 检测 到 分 区 总 数 错误 时 抛 出 
1/O 异常 。 
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下 面 将 以 前 面 6. 5. 3 小 节 中 建立 的 student 表 中 数据 为 基础 ,求学 生 的 平均 身高 ,身高 
以 厘米 为 单位 。 统 计 结 果 放 入 HDFS 文件 中 。 


public class StuMapper extends TableMapper< Text, IntWritable> { 
public void map (ImmutableBytesWritable row, Result result, Context context) 
throws InterruptedException, IOException( 
Text writablename- null; 
IntWritable writablehight- null; 
byte[] bytename- null; 
byte[] bytehight- null; 
for (Cell cell: result.rawCells()) { 
bytename-CellUtil.cloneRow (cell); 
bytehight- CellUtil.cloneValue (cell); 
if("hight".equalsIgnoreCase (Bytes.toString(CellUtil.cloneQualifier (cell) ))){ 


if(bytehight!-null)( 
writablename- new Text ("Average Hight"); 
// 把 所 有 的 关键 值 都 设 为 一 个 值 ,方便 求 平 均值 
writablehight = new IntWritable ( Integer. parseInt (Bytes. toString 
(bytehight))); 
context .write (writablename, writablehight); 


break; 


} 

System. out. println ("name: hight: "+ Bytes. toString (bytename) +" "+ Bytes. toString 
(bytehight) ) ; 

} 


public class StuReducer extends Reducer<Text, IntWritable,Text, IntWritable> { 
public void reduce (Text key, Iterable< IntWritable>values, 
Context context) throws IOException, InterruptedException { 
int sum=0; 
int count=0; 
Iterator< IntWritable> iterator- values.iterator(); 
while (iterator.hasNext()) { 
sum+ = iterator.next ().get(); 
count+ +; 
} 
int average= (int) sum / count; 
key= new Text ("Average hight :"); 
context .write (key, new IntWritable (average) ) ; 


public class TableMapReduceTest { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException { 
Configuration config=HBaseConfiguration.create(); 
config. set ("hbase.zookeeper.quorum", "master, slavel,slave2") ; 
String[] ioArgs=new String[] {"avr_hight" }; 
String[] otherArgs=new GenericOptionsParser (config, ioArgs) . 
getRemainingArgs () 7 
if (otherArgs.length !=1) { 
System.err.println("Usage: TableMapReduceTest« out? ") ; 
System.exit (2); 
} 
final FileSystem fileSystem- FileSystem.get (config); 
fileSystem.delete (new Path (otherArgs[0]), true); 


Job job- new Job (config, "TableMapReduceTest") ; 
job.setJarByClass (TableMapReduceTest .class); //class that contains mapper 


Scan scan- new Scan() ; 
scan.addColumn (Bytes.toBytes ("info"), Bytes.toBytes ("hight")); 
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scan.setCaching (500) ; //1 fé Scan 的 默认 值 ,这 对 MapReduce 作业 是 不 利 的 
scan.setCacheBlocks (false); ”// 对 MR 作业 不 要 设 为 true 
//set other scan attrs 


TableMapReduceUtil.initTableMapperJob( 


"student", // 输 入 的 表 名 

Scan, 

//scan 实 例 ,控制 列 族 及 属性 的 选择 instance to control CF and attribute selection 
StuMapper.class, //mapper 类 

Text.class, //mapper 输出 键 

IntWritable.class, / [mapper 输出 值 的 类 型 

job); 


job.setReducerClass (StuReducer.class); 
job.setOutputKeyClass (Text.class); // 设 置 输出 的 Key 的 类 型 
job.setOutputValueClass (IntWritable.class); // 设 置 输出 的 Value 的 类 型 


job.setOutputFormatClass (TextOutputFormat.class); 
FileOutputFormat.setOutputPath (job, new Path (otherArgs[0])); 


// 设 置 输出 目录 
job.setNumReduceTasks (1) ; //at least one, adjust as required 


boolean b- job.waitForCompletion (true); 
if (!b) ( 

throw new IOException ("error with job!"); 
) 


) 


代码 分 析 : stuMapper 类 从 student 表 中 , 读 取 hight 列 的 值 ,把 键 值 Key 全 部 设 为 
Average Hight, 并 把 键 值 对 “Average Hight” 王 二 “身高 值 " 写 入 中 间 文 件 中 。StuReducer 
根据 关键 值 组 求 出 平均 值 ,并 写 和 人 HDFS 文件 中 。TableMapReduceTest 类 通过 
TableMapReduceUtil. initTableMapperJob 设置 Mapper 输入 输出 的 一 些 相 应 的 参数 。 并 
设置 输出 的 键 / 值 \ 输 出 类 、 输 出 目录 等 。 本 例 数据 来 源 于 HBase 数据 库 , 结 果 输 出 到 
HDFS 文件 中 。 
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Mapper 类 与 6. 6. 1 小 节 中 的 一 样 这 里 就 不 袭 述 , 只 列 出 Reducer 类 与 main 函数 。 


public class MytableReducer extends TableReducer< Text, IntWritable, 
ImmutableBytesWritable> { 
public static int sum- 0; 
public static int count- 0; 
public void reduce (Text key, Iterable< IntWritable» values, Context context) 
throws IOException, InterruptedException ( 


for (IntWritable val: values) ( 
sum*-val.get(); // 从 values 数组 中 获取 值 加 到 sum rf 
count+ +; // 累 加 总 共有 多 少 个 值 


int average- (int) ( sum / count); 

key- new Text ("Average hight:"); 

Put put- new Put (Bytes.toBytes (key.toString())); 

// 创 建 以 Key 为 键 值 的 Put 对 象 

put .add (Bytes .toBytes ("average") , Bytes .toBytes ("hight"), 
Bytes.toBytes (String.valueOf (average))); 

// 以 average 为 族 列 ,hight 为 列 名 ,average 为 值 

context .write (null, put); // 把 put 值 写 入 新 的 数据 表 中 


public class HBaseMR2HBase { 
public static void main(String[] args) throws IOException, 
ClassNotFoundException, InterruptedException ( 
Configuration config- HBaseConfiguration.create (); 
config.set ("hbase.zookeeper.quorum", "master,slavel,slave2"); 


Job job- new Job (config, "HBaseMR2HBase") ; 
job.setJarByClass (HBaseMR2HBase.class); 
Scan scan- new Scan (); 
scan.addColumn (Bytes .toBytes ("info"), Bytes.toBytes ("hight")); 
Scan.setCaching (500) ; 
//1 is the default in Scan, which will be bad for MapReduce jobs 
scan.setCacheBlocks (false); //don't set to true for MR jobs 


TableMapReduceUtil.initTableMapperJob ( 


"student", // 输 入 的 表 名 

scan, //scan 实 例 , 控 制 列 族 及 属性 的 选择 
MytableMapper.class, / /mapper 类 

Text.class, //mappex 输出 键 
IntWritable.class //mapper 输出 值 

job); 


TableMapReduceUtil.initTableReducerJob ( 


"score" // 设 置 输出 的 数据 表 
MytableReducer.class // 设 置 TableReducer 类 
job); 


job.setNumReduceTasks (1) ; //at least one, adjust as required 


boolean b- job.waitForCompletion (true); 
if (!b) 1 
throw new IOException ("error with job!"); 
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6.7 HBase 优化 


HBase 是 Hadoop 整个 生态 系统 中 一 个 重要 的 组 成 部 分 , 它 弥 补 了 Hadoop 只 能 提供 
高 延 时 的 批 处 理 的 MapReduce 功能 , 它 对 APP 向 下 提供 了 存储 ,向 上 又 提供 实时 运算 和 查 
询 ; 又 可 以 使 用 MapReduce 的 并 行 计算 模型 进行 大 规模 的 数据 处 理 , HBase 将 数据 存储 和 
并 行 计 算 、 实 时 与 批 处 理 几 乎 完美 地 结合 了 起 来 。 因 此 ,HBase 的 性 能 关乎 整个 Hadoop 系 
统 的 效率 ,这 里 主要 表现 为 处 理 时 延 和 吞吐 量 。 下 面 介绍 HBase 面世 以 来 的 优化 方法 。 
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HBase 是 使 用 Java 语言 开发 的 系统 ,与 Java 程序 一 样 ,HBase 采用 了 GC(Garbage 
Collection) 机 制 进行 内 存 管理 ,这 简化 了 开发 人 员 的 工作 ,不 用 考虑 内 存 的 回收 问题 ,但 GC 
机 制 在 回收 内 存 时 ,会 占用 较 多 的 CPU 时 间 ,为 了 提高 HBase 的 效率 ,可 以 考虑 调整 JVM 
GC 参数 ,减少 因为 内 存 回 收 而 导致 的 程序 运行 中 断 问题 ,从 而 适当 地 提高 HBase 的 工作 效 
3, GC 参数 的 设置 并 不 是 千篇一律 的 ,优化 时 设 定 一 些 参数 可 能 会 出 现 不 但 没有 提高 系 
统 的 速度 ,反而 可 能 导致 系统 更 慢 的 现象 。GC 优化 应 该 遵守 这 样 的 基本 原则 : 将 不 同 的 
GC 参数 用 于 2 台 或 者 多 台 服 务 器 ,并 进行 对 比 ,最终 将 那些 被 证 明 提 高 了 性 能 或 者 减少 了 
GC 执行 时 间 的 参数 应 用 于 更 大 规模 的 服务 器 ,如 表 6-6 和 表 6-7 所 示 。 


表 6-6 GC 优化 需要 考虑 的 Java 参数 


定义 $ WV d æ 
-Xms 启动 JVM 时 的 堆 内 存 空间 

slid Xmx 堆 内 存 最 大 限制 
-XX:NewRatio 新 生 代 和 老年 代 的 占 比 

新 生 代 空 间 -XX:NewSize 新 生 代 空 间 
-XX:SurvivorRatio 伊甸园 空间 和 幸存 者 空间 的 占 比 


表 6-7 GC 类 型 可 选 参数 


分 X 2 HX 备 * 
Serial GC -XX:+ UseSerialGC 
Parallel GC -XX:+ UseParallelGC 


-XX;ParallelGCThreads— value 
Parallel Compacting GC | -XX:+ UseParallelOldGC 


-XX;+ UseConcMarkSweepGC 
-XX;--UseParNewGC 

CMS GC -XX:+CMSParallelRemarkEnabled 
-XX:CMSlInitiatingOccupancyFraction= value 
-XX:+UseCMSlnitiatingOccupancyOnly 


-XX;+ UnlockExperimental V MOptions 


m -XX;+UseG1GC 


这 两 个 参数 必须 同时 使 用 


在 进行 GC 优化 时 经 常 使 用 -Xms、-Xmx 和 -XX:NewRatio。-Xms 和 -Xmx 是 必需 的 。 
如 何 设 定 NewRatio 对 GC 性 能 产生 十 分 显著 的 影响 。 可 以 通过 -XX: PermSize 和 -XX: 
MaxPermSize 参数 来 设 定 。 

GC 优化 过 程 如 下 。 

CD 监控 GC 状态 。 首 先 需要 监控 GC 来 检查 在 系统 执行 过 程 中 GC 的 各 种 状态 。 

(2) 在 分 析 监 控 结果 后 ,决定 是 否 进行 GC 优化 。 在 检查 GC 状态 的 过 程 中 ,应 该 分 析 
监控 结果 以 便 决定 是 否 进行 GC 优化 ,如 果 分 析 结果 表明 执行 GC 的 时 间 只 有 0. 1 一 0. 3 秒 , 那 
就 没 必 要 浪费 时 间 去 进行 GC 优化 。 但 是 ,如 果 GC 的 执行 时 间 是 1 一 3 秒 ,甚至 超过 10 
秒 ,GC 优化 就 势 在 必 行 。 

(3) 调整 GC 类 型 /内 存 空间 。 如 果 已 经 决定 要 进行 GC 优化 ,那么 就 要 选择 GC 类 型 
和 设 定 内 存 空 间 。 在 这 时 ,如 果 有 几 台 不 同 服务 器 ,请 时 刻 牢记 ,检查 每 一 台 服 务 器 的 GC 
参数 ,并 进行 有 针对 性 的 优化 。 

(4) 分 析 结 果 。 在 调整 了 GC 参数 并 持续 收集 24 小 时 之 后 ,开始 对 结果 进行 分 析 , 如 
果 幸 运 ,就 找到 了 那些 最 适合 系统 的 GC 参数 。 反 之 ,需要 通过 分 析 日 志 来 检查 内 存 是 如 何 
被 分 配 的 。 然 后 需要 通过 不 断 的 调整 GC 类 型 和 内 存 空 间 大 小 找到 最 佳 的 参数 。 

(5) 如 果 结 果 令 人 满意 ,可 以 将 该 参数 应 用 于 所 有 的 服务 器 ,并 停止 GC 优化 。 


672 Hee 参数 调 优 


1. hbase hregion max filesize 
默认 值 : 256MB。 

HBase 中 数据 会 首先 写 和 人 memstore, 当 memstore 写 满 后 ,会 flush 到 disk 上 而 成 为 
storefile。 当 storefile 数量 超过 3 时 ,启动 compaction 过 程 将 它们 合并 为 一 个 storefile。 这 
个 过 程 中 删除 一 些 timestamp 过 期 的 数据 ,比如 update 的 数据 。 而 当 合 并 后 的 storefile 大 
小 大 于 hfile 默认 最 大 值 时 ,触发 split 动作 ,将 它 切 分 成 两 个 region。 

因为 拆 分 Region 以 及 进行 相应 Compact 操作 ,对 节点 的 性 能 有 较 大 影响 ,因此 适当 增 
大 此 参数 有 助 于 提高 集群 性 能 。 


(0 CRI Hao cata jog 


198 


2. hbase regionserver_handler.count 

默认 值 : 10. 

该 参数 是 regionserver 响应 数据 操作 请 求 的 线程 数量 ,可 以 适当 增加 该 值 ,处 理 的 原则 
是 请 求 的 Payload 越 小 线程 数 越 大 ,Payload 越 大 线程 数 越 小 。 


3, hbase regionserver global: memstore.upperLimitlowerL imit 

默认 值 : 0. 4/0. 35. 

upperlimit 说 H: hbase. hregion. memstore. flush. size 这 个 参数 的 作用 是 当 单 个 
Region 内 所 有 的 memstore 大 小 总 和 超过 指定 值 时 ,flush 该 region 的 所 有 memstore。 
RegionServer 的 flush 是 通过 将 请 求 添加 到 一 个 队列 ,模拟 生产 消费 模式 来 异步 处 理 的 。 
这 里 就 有 一 个 问题 , 当 队 列 来 不 及 消费 ,产生 大 量 积压 请 求 时 ,可 能 会 导致 内 存 陡 增 , 最 坏 的 
情况 下 将 可 能 触发 内 存 溢出 。 

这 个 参数 的 作用 是 防止 内 存 占用 过 大 , 当 RegionServer 内 所 有 region 的 memstores 所 
占用 内 存 总 和 达到 heap 的 40% 时 ,HBase 会 强制 block 所 有 的 更 新 并 flush 这 些 region 以 
释放 所 有 memstore 占用 的 内 存 。 

lowerLimit 说 明 : [E] upperLimit, 只 不 过 lowerLimit 在 所 有 region 的 memstores 所 占 
用 内 存 达 到 Heap 的 35% 时 ,不 flush 所 有 的 memstore。 它 会 找 一 个 memstore 内 存 占用 最 
大 的 region ,做 个 别 flush, 此 时 写 更 新 还 是 会 被 block。lowerLimit 算是 一 个 在 所 有 region 
强制 flush 导致 性 能 降低 前 的 补救 措施 。 在 日 志 中 ,表现 为 **Flush thread woke up with 
memory above low water. 。 

调 优 方法 : 该 两 参数 默认 值 为 0.4 和 0.35。 当 负载 以 读 为 主 时 ,可 以 适当 减 小 这 两 个 
值 以 留 出 内 存 给 读 缓 存 。 当 负载 以 写 为 主 时 ,需要 根据 日 志 中 的 情况 ,适当 增 大 该 参数 , 减 
少 磁盘 I/O 〇 。 


4. hfile.block.cache size 

默认 值 : 0.2. 

该 参数 设置 storefile 的 读 缓存 占用 Heap 大 小 的 百分比 ,0. 2 表示 20%。 该 值 直接 影 
响 数据 读 的 性 能 。 

调 优 方法 : 该 参数 当然 是 越 大 越 好 ,如 果 写 比 读 少 很 多 , 开 到 0. 4 一 0. 5 也 没 问 题 。 如 
果 读 写 较 均衡 ,0. 3 左右 。 如 果 写 比 读 多 ,果断 默认 。 设置 这 个 值 时 ,同时 要 参考 hbase. 
regionserver. global. memstore. upperLimit, 该 值 是 memstore 占 heap 的 最 大 百分比 ,两 个 
参数 一 个 影响 读 , 一 个 影响 写 。 如 果 两 值 加 起 来 超过 80% ~~90%, 会 有 内 存 溢出 的 风险 , 谨 
慎 设 置 。 


5. hibase.hstore.blockingStoreHiles 

SUA B : 7. 

TE flush 时 , 当 一 个 region 中 的 Store( 列 族 ) 内 有 超过 7 个 storefile 时 , 则 block 所 有 的 
写 请 求 进行 compaction ,以 减少 storefile 数量 。 

调 优 方法 : block 写 请 求 会 严重 影响 当前 regionServer 的 响应 时 间 ,但 过 多 的 storefile 
也 会 影响 读 性 能 。 从 实际 应 用 来 看 ,为 了 获取 较 平滑 的 响应 时 间 ,可 将 值 设 为 无 限 大 。 如 果 
能 容忍 响应 时 间 出 现 较 大 的 波峰 波 谷 ,那么 默认 或 根据 自身 场景 调整 即 可 。 


6. hbase bregion memstore block multiplier 

默认 值 : 2。 

这 个 参数 的 作用 是 当 memstore 的 大 小 增 至 超过 hbase. hregion. memstore. flush. size 
2 倍 时 ,block 所 有 请 求 ,遏制 风险 进一步 扩大 。 

调 优 方法 : 这 个 参数 的 默认 值 还 是 比较 靠 谱 的 。 如 果 预 估 正 常 应 用 场景 (不 包括 异常 ) 
不 会 出 现 突 发 写 或 写 的 量 可 控 , 那 么 保持 默认 值 即 可 。 如 果 正 常情 况 下 , 写 请 求 量 就 会 经 常 
暴涨 到 正常 值 的 几 倍 ,那么 应 该 调 大 这 个 倍数 并 调整 其 他 参数 值 ,比如 hfile. block. cache. 
size 和 hbase. regionserver. global. memstore. upperLimit/lowerLimit, 以 预 留 更 多 内 存 , 防 
止 HBase 出 现 内 存 溢出 。 


7. hbase hregion memstore mslab.enabled 
默认 值 : true. 
该 参数 的 作用 是 减少 因 内 存 碎 片 导 致 的 Full GC, 以 提高 整体 性 能 。 


673 表 设 计 优化 


表 设 计 是 了 Base 数据 处 理 的 核心 ,经 过 优化 的 表 结 构 是 提高 系统 性 能 的 基础 。 


1. 数据 压缩 的 优化 

HBase 支持 GZIP, LZO, SNAPPY 等 多 种 压缩 算法 , HBase 处 理 的 通常 是 数据 密集 型 
应 用 ,采用 数据 压缩 方法 可 以 起 到 优化 系统 性 能 的 作用 ,相对 来 说 LZO 较 GZIP 性 能 高 ,而 
GZIP 压缩 比较 高 。 数 据 压 缩 方式 可 以 在 设计 表 时 设 定 ,也 可 以 在 表 创建 完了 之 后 修改 。 


2 尽量 避免 使 用 过 多 的 族 列 

HBase 中 的 某 个 列 族 在 Flush 或 Compaction 时 , 相 邻 的 列 族 也 会 因 关联 效应 触发 处 
理 , 导 致 系统 产生 更 多 的 IO, 当 列 族 在 3 个 以 上 时 ,就 会 出 现 L/O 性 能 下 降 的 情况 ,因此 设 
计 表 时 尽量 使 用 单个 列 族 。 


3. 尽量 使 用 短 的 行列 名 
HBase 在 传输 数据 时 总 是 带 上 行 名 、 列 名 和 时 间 戳 , 较 大 的 行列 名 会 影响 系统 的 性 能 。 


4 设置 合适 的 Region 大 小 

HBase 支持 为 每 个 数据 表 设 置 不 同 的 Region 大 小 ,开发 者 可 以 根据 特定 的 场合 设置 不 
同 的 Region 大 小 。 比 如 经 常 访问 的 数据 表 , 可 以 设置 较 小 的 Region, fE Region 分 割 后 被 分 
布 到 不 同 的 服务 器 上 ,以 实现 负载 均衡 。 对 数据 元 值 较 大 的 数据 表 , 可 适当 增加 Region 的 
大 小 。 

5. 预先 创建 多 个 Region 

默认 情况 下 ,在 创建 HBase 表 时 会 自动 创建 一 个 Region 分 区 , 当 导 入 数据 时 ,所 有 的 
HBase 客户 端 都 向 这 一 个 Region 写 数据 ,直到 这 个 Region 足够 大 了 才 进 行 切 分 。 一 种 可 
以 加 快 批量 写 入 速度 的 方法 是 通过 预先 创建 一 些 空 的 Regions, 这 样 当 数据 写 和 人 HBase 时 ， 
按照 Region 分 区 情况 ,在 集群 内 做 数据 的 负载 均衡 。 

6 启用 Bloom Filter 

Bloom Filter 通过 空间 换 时 间 ,提高 读 操 作 性 能 。 使 用 Bloom Filter 可 以 显著 提高 定位 
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数据 的 速度 。HBase 默认 不 使 用 Bloom Filter, 以 避免 额外 的 磁盘 和 内 存 开销 。 可 以 通过 
HColumnDescriptor 类 的 setBloomFilterType() 方 法 进行 设置 。 


7. 使 用 列 族 缓存 

经 常 访问 的 列 族 可 以 开启 列 族 缓存 以 提高 读 写 速度 。 创 建 表 时 ,可 以 通过 
HColumnDescriptor. setInMemory(true) 将 表 放 到 RegionServer 的 缓存 中 ,保证 在 读 取 时 
被 cache 命中 。 


8. 限制 表 中 数据 的 版 本 数量 
创建 表 时 ,可 以 通过 HColumnDescriptor. setMaxVersions (int maxVersions) 设 置 表 中 
数据 的 最 大 版 本 ,如 果 只 需要 保存 最 新 版 本 的 数据 ,那么 可 以 设置 setMaxVersions(1)。 


9. 限制 表 中 数据 的 生命 周期 

创建 表 时 ,可 以 通过 HColumnDescriptor. setTimeToLive(int timeToLive) 设 置 表 中 数 
据 的 存储 生命 期 ,过 期 数据 将 自动 被 删除 。 例 如 ,如 果 只 需要 存储 最 近 两 天 的 数据 ,那么 可 
以 设置 setTimeToLive(2 * 24 * 60 * 60), 


aza 读 优化 


1. Scan 优化 

(1) 使 用 Scan % f£, TE HBase 数据 读 取 操作 时 经 常 使 用 Scan 操作 ,HBase 默认 的 
Scan 操作 是 一 次 从 RegionServer 读 取 一 条 记录 ,这 样 效率 较 低 ,可 以 设置 一 次 交互 读 取 多 
条 记录 。 设 置 的 方法 如 下 。 

@ 在 HBase 的 conf 配置 文件 中 进行 配置 。 

@ 通过 调用 HTable. setScannerCaching(int scannerCaching) 进 行 配置 。 

@ 通过 调用 Scan. setCaching(int caching) 进 行 配 置 。 

三 者 的 优先 级 越 来 越 高 ,后 面 的 设置 会 覆盖 前 面 的 设置 。 

(2) 指定 Scan 的 范围 。Scan 时 指定 需要 的 列 族 , 可 以 减少 网 络 传输 的 数据 量 ,否则 默 
iA scan 操作 会 返回 整 行 所 有 Column Family 的 数据 。 

(3) 及 时 关闭 Scan。 通 过 Scan 取 完 数据 后 ,应 及 时 使 用 ResultScanner 类 的 closeO Jr 
法 关闭 scan. AFM] RegionServer 可 能 会 出 现 问题 (对 应 的 Server 资源 无 法 释放 ) 。 

2 批量 读 取 

通过 调用 HTable. get(Get) 方 法 可 以 根据 一 个 指定 的 row key 获取 一 条 记录 ,同样 
HBase 提供 了 另 一 个 方法 : 通过 调用 HTable. get(List<Get> ) 方 法 可 以 根据 一 个 指定 的 
row key 列表 ,批量 获取 多 条 记录 ,这 样 做 的 好 处 是 批量 执行 ,只 需要 一 次 网 络 1/O 开销 ,这 
可 能 会 带 来 明显 的 性 能 提升 。 


3. 缓存 查询 结果 

对 频繁 查询 HBase 的 应 用 场景 ,可 以 考虑 在 应 用 程序 中 做 缓存 , 当 有 新 的 查询 请 求 时 ， 
首先 在 缓存 中 查找 ,如 果 存 在 则 直接 返回 ,而 不 查询 HBase; 否则 会 对 HBase 发 起 读 请 求 ， 
然后 在 应 用 程序 中 将 查询 结果 缓存 起 来 。 

4 多 HTable 并 发 读 

创建 多 个 HTable 客户 端 用 于 读 操作 ,提高 读数 据 的 吞吐 量 。 
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5 多 线程 并 发 读 
在 客户 端 开启 多 个 HTable 读 线程 ,每 个 读 线程 负责 通过 HTable 对 象 进行 get 操作 。 


E675” 写 优化 


1 关闭 WAL 

HBase 在 写 人 数据 时 ,首先 写 入 日 志 , 即 WAL 机 制 (Write Ahead Log) ,当日 志 写 人 成 
功 后 ,数据 才 真 正 写 人 MemStore, WAL 机 制 避免 了 数据 的 丢失 ,但 也 有 一 定 的 性 能 损失 。 
因此 ,关闭 WAL 可 以 在 一 定 程度 上 提高 HBase 的 性 能 。 


2 关闭 AutoFlush 

当 setAutoFlush 设 为 true 时 ,Put 请 求 会 逐条 发 送 记录 到 RegionServer, 这样 效 率 较 
低 。 而 将 HTable 的 setAutoFlush 设 为 false 时 ,可 以 支持 客户 端 批量 更 新 。 即 当 Put 填 满 
客户 端 Flush 缓存 时 , 才 发 送 到 服务 端 。 这 有 助 于 提高 效率 。 


3. 批量 写 入 

通过 调用 HTable. put(Put) 方 法 可 以 将 一 个 指定 的 row key 记录 写 人 HBase, 同 样 
HBase 提供 了 另 一 个 方法 : 通过 调用 HTable. put(List 过 Put 请 ) 方 法 可 以 将 指定 的 Row 
Key 列表 ,批量 写 和 人 多 行 记录 ,这 样 做 的 好 处 是 批量 执行 ,只 需要 一 次 网 络 1/0 开销 ,这 对 
数据 实时 性 要 求 高 ,网 络 传输 往返 时 延 (Round-Trip Time,RTT) 高 的 情景 下 可 能 带 来 明显 
的 性 能 提升 。 


4 Write Buffer 的 设置 

通过 调用 HTable. setWriteBufferSize(writeBufferSize) 方 法 可 以 设置 HTable 客户 端 
的 写 Buffer 大 小 ,如 果 新 设置 的 Buffer 小 于 当前 写 Buffer 中 的 数据 时 ,Buffer 将 会 被 Flush 
到 服务 端 。 其 中 , WriteBufferSize 的 单位 是 Byte 字 节 数 , 可 以 根据 实际 写 人 数据 量 的 多 少 
来 设置 该 值 。 


5. 多 线程 读 写 操作 

在 客户 端 开 启 多 个 HTable 写 线程 .每 个 写 线程 负责 一 个 HTable 对 象 的 Flush 操作 ， 
这 样 结合 定时 Flush 和 写 Buffer(WriteBufferSize) ,可 以 既 保 证 在 数据 量 小 时 ,数据 可 以 在 
较 短 时 间 内 被 Flush( 如 1 秒 内 ), 同 时 又 保证 在 数据 量 大 时 , 写 Buffer 一 满 就 及 时 进行 
Flush。 这 样 能 够 显著 提高 效率 。 


Hive 数据 仓库 Qo 


在 前 面 的 章节 中 已 经 介绍 了 Hadoop 平台 下 的 HDFS 文件 系统 、MapReduce 模型 以 及 
H Base 数据 库 , 这 些 为 大 数据 分 析 提 供 了 很 好 的 基础 ,但 是 这 些 模 型 及 软件 在 大 数据 分 析 
上 要 求 使 用 者 具有 较 高 的 编程 能 力 , 使 用 起 来 还 不 是 很 方便 ,因此 ,需要 有 一 个 简捷 易 用 的 
大 数据 分 析 工 具 ,Hive 就 是 基于 Hadoop 的 一 个 数据 仓库 ,在 大 数据 处 理 分 析 方 面 有 其 独 
特 之 处 。 

本 章 将 详细 介绍 Hive 数据 仓库 的 相关 内 容 。 


7.1 Hive 简介 


713 数据 分 析 王 具 应 具有 的 特征 


随 着 互联 网 的 产生 ,网 络 应 用 迅速 普及 , 随 之 产生 了 海量 的 非 结构 化 数据 , 称 为 大 数据 ， 
大 数据 较 之 以 前 的 结构 化 数据 发 生 了 巨大 的 变化 ,针对 结构 化 数据 的 分 析 挖 掘 工具 已 经 不 
能 适应 新 形势 的 发 展 需要 。 大 数据 时 代 要 求 数据 分 析 工 具 必 须 具 有 以 下 3 个 特点 。 

1 具有 较 强 的 数据 抽象 能 力 

关系 型 数据 库 在 结构 化 数据 处 理 方面 的 理论 与 技术 已 经 非常 成 熟 , 但 它 不 适用 于 非 结 
构 化 的 大 数据 处 理 。Hadoop 下 的 HDFS, MapReduce, HBase 等 技术 在 处 理 大 数据 方面 有 
其 独到 之 处 ,但 它们 不 能 用 较为 简单 的 模型 来 抽象 大 数据 。 因 此 ,对 大 数据 的 分 析 需 要 一 种 
便于 理解 的 数据 抽象 模型 。 


2 具有 简捷 易 用 的 操作 方式 

不 管 是 在 哪个 实际 生产 环节 ,要 求 数据 分 析 人 员 具 有 渊博 的 数据 分 析 与 挖掘 理论 , 同 
时 ,也 要 求 数据 分 析 工具 要 简捷 易 用 。 不 用 学 习 复 杂 的 编程 知识 ,只 用 简单 的 工具 和 请 句 即 
可 完成 数据 分 析 。 由 于 数据 分 析 具 有 很 大 的 不 确定 性 ,往往 会 因为 数据 的 格式 、 内 容 、 内 在 
关系 的 不 同 ,而 产生 不 同 的 分 析 结 果 。 因 此 ,也 要 求 分 析 工 具 支 持 复杂 多 变 的 数据 操作 。 

3 具有 高 效 稳定 的 执行 环境 

大 数据 分 析 工具 在 数据 分 析 过 程 中 ,不 仅 要 屏蔽 底层 的 复杂 理论 与 模型 ,而且 还 要 具有 
海量 的 数据 存储 能 力 和 对 软 硬 件 的 容错 能 力 。 


712 Pg 与 Hye 的 比较 
正 是 基于 以 上 的 要 求 ,Yahoo 和 Facebook 分 别 开 发 了 自己 的 数据 分 析 工 具 Pig 和 Hive. 
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这 两 个 数据 分 析 工 具 又 有 什么 相似 与 不 同 之 处 呢 ? Pig 与 Hive ÆDE LA ERZA, AE 
用 于 数据 分 析 的 工具 ,但 是 它们 之 间 也 有 不 同 之 处 。 

数据 分 析 包 括 三 个 过 程 : 数据 采集 .数据 准备 和 数据 呈现 。 数 据 采集 也 就 是 从 数据 源 
获取 数据 的 过 程 ,不 是 大 数据 分 析 关 注 的 重点 ,这 里 不 子 讨 论 。 数 据 准备 是 对 数据 进行 抽 
取 、 转 换 和 加 载 的 过 程 ,也 就 是 将 无 规律 的 原始 数据 加 工 成 为 有 价值 的 商业 数据 的 过 程 。 经 
过 数据 准备 后 形成 的 商业 数据 存储 在 数据 仓库 中 ,数据 分 析 人 员 利 用 数据 仓库 中 的 工具 把 
数据 提取 并 呈现 出 来 , 称 为 数据 呈现 。 

Pig 是 更 适合 于 做 数据 准备 阶段 的 工作 。 它 的 主要 用 户 是 程序 员 数据 处 理 专家 和 研 
究 人 员 , 它 能 够 快速 地 把 到 达 的 数据 进行 流水 式 处 理 ,并 对 大 规模 数据 进行 达 代 处 理 。 而 
Hive 更 适合 于 做 数据 呈现 的 工作 。 它 的 主要 用 户 是 工程 师 、 分 析 师 和 决策 者 ,他 们 通常 要 
对 整理 后 的 数据 进行 检索 、 组 合 和 统计 ,按照 需要 的 形式 呈现 出 来 。Pig 的 核心 是 PigLatin 
语言 ,是 面向 关系 型 的 流 式 数据 处 理 语言 , 适 合 于 构建 数据 流 。 而 Hive 采用 了 近似 于 SQL 
的 语言 接口 和 关系 型 数据 模型 ,因此 Hive 能 够 更 好 地 与 传统 智能 商业 分 析 软 件 及 基于 
SQL 的 分 析 系 统 进 行 对 接 整 合 ,实现 平滑 地 过 渡 。Hive 对 用 户 能 力 的 要 求 相对 也 较 低 。 
所 以 它 更 适合 于 做 数据 呈现 方面 的 工作 。 

Facebook 为 了 对 其 社交 网 站 中 大 量 数据 进行 处 理 与 分 析 , 做 了 大 量 的 调研 工作 ,比较 
了 多 种 底层 架构 ,最 终 选择 了 Hadoop 下 的 HDFS 和 MapReduce 模型 作为 Hive 的 基础 支 
撑 技 术 。 下 面 将 对 Hive 进行 介绍 。 
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Hive 是 基于 Hadoop 的 一 个 数据 仓库 , 它 能 够 让 熟悉 SQL 语言 但 又 不 掌握 Java 编程 
技术 的 数据 分 析 人 员 能 够 对 存储 在 数据 仓库 中 的 结构 化 数据 ,利用 SQL 语句 进行 数据 的 查 
i 汇总、 分 析 。Hive 能 够 将 SQL 语句 转化 成 为 MapReduce 任务 进行 运行 ,充分 发 挥 
Hadoop 集群 的 计算 和 存储 优势 。 

Hive 的 架构 如 图 7-1 所 示 ,分 为 以 下 四 个 部 分 。 


CLI 接 口 JDBC/ODBC Thrift 应 用 Web 界 面 


Thrift Server 


序 


驱动 程 
(编译 、 优 化 、 执 行 ) 


( JobTracker_) (_ NameNode ) 


sil 
Hadoop 


DataNode ll | 
TaskTracker 


图 7-1 Hive 架 构图 
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1 用 户 接口 

Hive 有 3 个 用 户 操作 接口 ,第 一 类 是 命令 行 接口 (CLD ,该 种 方式 下 ,数据 分 析 员 以 命令 
行 的 形式 输入 SQL 语句 进行 数据 操作 ;第 二 类 是 Web 界面 。 数 据 分 析 人 员 通 过 Web 方式 访 
问 Hive; 第 三 类 是 Hive 的 远程 服务 方式 。Hive 远程 服务 通过 JDBC 等 方式 访问 Hive。 


2 元 数据 存储 
Hive 存储 元 数据 的 方式 与 HBase 不 同 , 它 将 元 数据 存储 在 关系 数据 库 中 ,如 MySQL、 
Derby。 元 数据 包括 表 的 属性 、 表 的 名 称 、 表 的 列 ,分 区 及 其 属性 以 及 表 数 据 所 在 的 目录 等 。 


3. 解释 器 、 编 译 器 、 优 化 器 
分 别 完成 HQL 查询 语句 从 词法 分 析 ,语法 分 析 、 编 译 、 优 化 以 及 查询 计划 的 生成 。 生 
成 的 查询 计划 存储 在 HDFS 中 ,并 在 随后 由 MapReduce 调用 执行 。 


4 数据 存储 

Hive 没有 专门 的 数据 存储 格式 ,也 没有 为 数据 建立 索引 ,用 户 可 以 非常 自由 地 组 织 
Hive 中 的 表 。 只 需要 在 创建 表 时 告诉 Hive 数据 中 的 列 分 隔 符 和 行 分 隔 符 , Hive 就 可 以 解 
析 数 据 。 

Hive 中 所 有 的 数据 都 存储 在 HDFS 中 , Hive 中 包含 以 下 数据 模型 : 表 (Table) 、 外 部 
表 (External Table) ,分 区 (Partition) 和 桶 (Bucket) 。 

Hive 中 的 Table 和 数据 库 中 的 Table 在 概念 上 是 类 似 的 ,每 一 个 Table 在 Hive 中 都 
有 一 个 相应 的 目录 存储 数据 。 例 如 ,一 个 表 htable, 它 在 HDFS 中 的 路 径 为 : /warehouse/ 
htable, 其 中 ,warehouse 是 在 hive-site. xml 中 由 $ {hive. metastore. warehouse. dir} 指 定 的 
数据 仓库 的 目录 ,所 有 的 Table 数据 (不 包括 External Table) 都 保存 在 这 个 目录 中 。 

分 区 (Partition) 对 应 于 数据 库 中 的 Partition 列 的 密集 索引 ,但 是 Hive 中 Partition 的 
组 织 方式 和 数据 库 中 的 大 不 相同 。 在 Hive 中 , 表 中 的 一 个 Partition 对 应 于 表 下 的 一 个 目 
录 , 所 有 的 Partition 的 数据 都 存储 在 对 应 的 目录 中 。 例 如 : htable 表 中 包含 ds 和 city 两 个 
Partition, 则 对 应 于 ds— 20141001, city— Dialian 的 HDFS 子 目 录 为 : /warehouse/htable/ 
ds=20141001/city= Dalian; Xf hii F ds= 20141001, city = Shenyang 的 HDFS 子 目录 为 ; 
/ warehouse/htable/ds- 20141001 /city- Shenyang. 

桶 (Bucket) 对 指定 列 计算 hash. 48 38$ hash 值 切 分 数据 ,目的 是 完成 并 行 ,每 一 个 
Bucket 对 应 一 个 文件 。 将 user 列 分 散 至 32 个 bucket ,首先 对 user 列 的 值 计 算 hash, 对 应 
hash ffi Jy 0 的 HDFS 目录 为 : /warehouse/htable/ds = 20141001/city = Dalian/part- 
00000;hash 值 为 20 的 HDFS 目录 为 : /warehouse/htable/ds = 20141001 /city = Dalian/ 
part-00020 , 

外 部 表 (External Table) 指 向 已 经 在 HDFS 中 存在 的 数据 .可 以 创建 Partition。 它 和 
表 在 元 数据 的 组 织 上 是 相同 的 ,而 实际 数据 的 存储 则 有 较 大 的 差异 ,表现 为 以 下 两 方面 。 

(1) 创建 表 的 过 程 包括 表 的 创建 过 程 和 数据 加 载 过 程 (这 两 个 过 程 可 以 在 同一 个 语句 
中 完成 ) ,在 加 载 数据 的 过 程 中 .实际 数据 会 被 移动 到 数据 仓库 目录 中 ;之 后 的 数据 访问 将 会 
直接 在 数据 仓库 目录 中 完成 。 删 除 表 时 , 表 中 的 数据 和 元 数据 将 会 被 同时 删除 。 

(2) 而 外 部 表 的 创建 只 包括 一 个 过 程 , 加载 数 据 和 创建 表 同 时 完成 (CREATE 
EXTERNAL TABLE ...LOCATION) ,实际 数据 是 存储 在 LOCATION 后 面 指定 的 HDFS 
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路 径 中 ,并 不 会 移动 到 数据 仓库 目录 中 。 当 删除 一 个 外 部 表 时 , 仅 删 除 元 数据 , 表 中 的 数据 
不 会 真正 被 删除 。 
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Hive 数据 库 中 对 库 、 表 、 分 区 、 桶 等 模型 进行 描述 的 数据 称 为 元 数据 ,由 于 元 数据 面临 
不 断 地 更 新 ,修改 ,所 以 Hive 元 数据 并 不 适合 存储 于 HDFS 中 , Hive 把 元 数据 存储 于 
RDBMS 中 ,一 般 常 用 MySQL 和 Derby. Hive 默认 把 元 数据 存储 于 Derby 库 中 。Hive 有 
三 种 模式 连接 到 元 数据 库 。 


1. AHR (Embedded) 模式 

ARR F ,元 数据 库 与 Hive 服务 运行 在 同一 个 JVM 中 ,元 数据 存储 在 内 嵌 的 Derby 
数据 库 中 。 由 于 只 有 一 个 Derby 数据 库 可 以 为 访问 Hive 数据 库 文件 提供 服务 ,只 存在 一 
个 Hive 会 话 连接 ,因此 该 模式 只 适合 于 Hive 的 简单 试用 及 单元 测试 ,如 图 7-2 所 示 。 


p——— P —— 


Hive Service JVM 


| | 
| (Dey | 
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2 A Hb (Local) 模式 

本 地 模式 下 ,使 用 一 个 独立 的 数据 库存 储 元 数据 ,如 MySQL 数据 库 , Hive 内 部 对 
MySQL 提供 了 很 好 的 支持 。 本 地 模式 将 元 数据 存储 独立 出 来 ,可 以 支持 多 个 Hive 服务 共 
享 一 个 元 数据 库 , 如 图 7-3 所 示 。 
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图 7-3 本 地 模式 


3. 远程 (Remote) 模式 

远程 模式 下 , Hive 服务 和 元 数据 库 运 行 于 不 同 的 JVM 中 , Hive 服务 器 可 以 访问 多 个 
元 数据 库 。 该 模式 下 ,可 以 将 元 数据 库 放 在 防火 墙 之 后 ,具有 较 高 的 安全 性 ,用 于 非 Java 客 
户 端 访问 元 数据 库 ,在 服务 器 端 启动 一 个 MetaStoreServer, 客 户 端 利 用 Thrift 协议 通过 
MetaStoreServer 访问 元 数据 库 , 如 图 7-4 所 示 。 
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图 7-4 远程 模式 
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文件 格式 是 指 表 中 数据 如 何 存储 到 文件 中 , Hive 支持 的 文件 存储 格式 包括 : 文本 文件 
存储 格式 \ 面 向 行 的 序列 文件 存储 格式 \ 面 向 列 的 RCFile 文件 存储 格式 以 及 自 定 义 格式 。 


l 文本 文件 存储 格式 

Hive 存储 数据 默认 采用 文本 文件 格式 ,每 行 数 据 以 回 车 符 作 为 分 割 符 ,一 行内 各 列 之 
间 用 CTRL-A 进行 分 割 。 采 用 文本 文件 格式 具有 格式 简单 ,适合 被 MapReduce 程序 处 理 ， 
但 其 缺点 也 是 非常 明显 的 ,以 文本 文件 格式 存储 数据 会 占用 较 大 的 磁盘 空间 ,1/O 效率 也 偏 
高 。 虽 然 可 以 采用 压缩 技术 存储 数据 ,但 压缩 后 不 能 自动 切 分 ,所 以 不 适合 于 MapReduce 
模型 处 理 。 示 例如 下 : 


hive> CREATE TABLE text table (str STRING) 
> STORED AS TEXTFILE; 


创建 一 个 文本 文件 格式 的 表 ,该 类 表 不 对 数据 进行 压缩 、 磁 盘 开销 大 ,数据 解析 开销 大 。 


2 面向 行 的 序列 文件 存储 格式 

序列 文件 即 是 指 采 用 二 进 制 文件 格式 按 顺 序 存放 去 键 - 值 过 对 数据 。 采 用 序列 文件 存 
储 数据 的 最 大 好 处 是 支持 可 分 割 的 压缩 ,也 就 是 采用 压缩 后 的 序列 文件 存储 数据 , 读 取 时 可 
以 被 切 分 交 给 MapReduce 程序 处 理 。 面 向 行 的 序列 文件 存储 形式 具有 适合 快速 数据 加 载 
和 动态 负载 均衡 的 优点 。 因 为 同一 行 的 所 有 列 都 存储 在 同一 个 HDFS 节点 上 ,但 该 格式 不 
支持 按 列 的 快速 查询 , 当 按 表 中 少数 列 进行 查询 时 ,会 把 所 有 列 的 数据 都 读 出 来 ,然后 进行 
处 理 。 巾 于 不 同 列 的 数值 属性 不 同 ,在 压缩 时 ,不 可 能 获得 最 大 的 压缩 比 。 

hive> CREATE TABLE sequence table (str STRING) 

> STORED AS SEQUENCEFILE; 


hive> SET hive.exec.compress.output- true; 
hive> SET io.seqgfile.compression.type- BLOCK; 


创建 一 个 面向 行 的 序列 文件 ,该 类 表 采 用 二 进 制 存储 ,可 分 割 、 可 压缩 。 


3. 面 向 列 的 RCEile 文件 存储 格式 

采用 RCFile 文件 格式 存储 数据 时 ,对 数据 先 水 平 切 分 ,再 垂直 切 分 。RCFile 首先 把 若 
干 数据 行 合 为 一 个 行 组 (Row Group) ,每 个 行 组 存放 在 一 个 HDFS Block 中 ,这 样 就 确保 了 
同一 行 的 数据 在 同一 个 HDFS 节点 上 。 每 个 行 组 又 包含 3 部 分 : 第 一 部 分 是 用 于 分 割 行 组 
的 16 字 节 的 同步 标识 ;第 二 部 分 是 元 数据 头 , 存 储 着 行 组 中 的 记录 数 、 每 列 字 节 数 等 信息 
第 三 部 分 为 数据 段 ,数据 按 列 的 顺序 存放 。 这 种 格式 综合 了 行 存储 和 列 存储 的 优点 , 既 可 以 
保障 重组 一 行 数据 的 速度 ,又 可 以 提高 按 列 查询 时 的 效率 ,还 能 利用 相同 列 数 据 的 同 质 性 提 
高 压缩 比 。 创 建 代码 如 下 所 示 : 

hive> CREATE TABLE rc table (str STRING) 

> STORED AS RCFILE; 

该 类 表 对 每 个 列 独立 压缩 (使 用 Gzip 压缩 算法 ), 采 用 追加 方式 添加 数据 ,查询 时 仅 读 

取 数 据 头 部 和 查询 需要 的 列 , 使 用 Lazy 解压 技术 ( 列 不 在 内 存 解压 ,直到 RCFile 决定 列 中 


数据 真正 对 查询 执行 有 用 时 才 解 压 ) 。 该 类 表 的 1/O 性 能 也 与 行 组 大 小 有 关 , 行 组 大 ,数据 
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压缩 效率 比 行 组 小 时 更 有 效 。 但 行 组 大 时 可 能 会 损害 数据 的 读 性 能 ,占用 更 多 的 内 存 , 影 响 
并 发 执行 的 MapReduce 作业 。 
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Hive 支持 的 数据 类 型 分 为 两 类 , 即 基 本 数据 类 型 和 复杂 数据 类 型 。 
基本 数据 类 型 包括 数值 型 .布尔 型 和 字符 串 型 ,复杂 数据 类 型 包括 数据 组 (ARRAY)、 
Wet MAP) ,结构 体 (STRUCT) 和 共用 体 (UNION)。 表 7-1 为 Hive 的 数据 类 型 的 简单 


描述 。 
表 7-1 Hive 的 数据 类 型 
类 别 类 型 d xk m Bl 
TINYINT 有 符号 整数 ,1B, 一 128 一 127 1 
SMALLINT | 有 符号 整数 ,2B, 一 32 768 一 32 767 1 
有 符号 整数 ,4B 
INT 一 2 147 483 648~2 147 483 647 
基本 
有 符号 整数 ,8B 
2 Bee —9 223 372 036 854 775 808~9 223 372 036 854 775 807 
FLOAT 单 精度 浮 点 数 ,4B 
DOUBLE 双 精 度 浮 点 数 ,8B 
BOOLEAN true/false 
STRING 字符 串 ‘al',"b2" 
ARRAY 一 组 有 序 字段 ,字段 的 类 型 必须 相同 array(1,2) 
复杂 一 组 无 序 的 < 键 - 值 之 对 , 键 的 类 型 必须 是 基本 类 型 , 值 
类 型 MAP 的 类 型 可 以 是 任何 类 型 ,同一 个 映射 的 键 的 类 型 必须 相 | map(1,"a") 
同 , 值 的 类 型 也 必须 相同 
STRUCT 一 组 命名 的 字段 ,字段 的 类 型 可 以 不 同 struct('a',2,2. 0) 


BINARY, TIMESTAMP, DATE, DECIMAL, CHAR, VARCHAR, UNION 是 Hive 
后 续 版 本 逐渐 增加 的 数据 类 型 ,读者 可 以 参考 Hive 官方 网 站 ,了 解 其 详细 用 法 。 


7.2 Hive 的 安装 
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安装 MAL 


Hive 的 安装 根据 元 数据 库 位 置 和 属性 的 不 同 分 为 三 种 安装 方式 : 嵌入 式 安装 本 地 模 
式 安装 ,远程 模式 安装 。 下 面 以 本 地 模式 进行 安装 ,本 地 模式 下 Hive 使 用 MySQL 作为 元 
数据 库 , 因 此 要 先 安 装 MySQL ,安装 过 程 如 下 。 


1 修改 系统 的 更 新 源 
COD 首先 备份 Ubuntul2. 04 源 列表 : 


sudo cp /etc/apt/sources.list /etc/apt/sources.list.backup 


(0 CR Hdxp A wets ie 


(2) 修改 更 新 源 : 
sudo nano /etc/apt/sources.list 


(3) 把 里 面 的 列表 替换 成 下 面 的 列表 。 因 为 官方 提供 的 更 新 源 速 度 太 慢 ,所 以 把 更 新 


源 改 为 北京 交通 大 学 的 源 ,读者 也 可 以 根据 自己 所 用 Linux 版 本 ,从 网 上 查找 相应 较 快 的 
源 ,修改 自己 的 更 新 源 。 


# 北 京 交通 大 学 

deb http://mirror.bjtu.edu.cn/ubuntu/ precise main multiverse restricted 

universe 

deb http: //mirror.bjtu.edu.cn/ubuntu/ precise- backports main multiverse restricted universe 
deb http: //mirror.bjtu.edu.cn/ubuntu/ precise- proposed main multiverse restricted universe 
deb http: //mirror.bjtu.edu.cn/ubuntu/ precise- security main multiverse restricted universe 
deb http: //mirror.bjtu.edu.cn/ubuntu/ precise- updates main multiverse restricted universe 
deb- src http: //mirror.bjtu.edu.cn/ubuntu/ precise main multiverse restricted universe 

deb - src http://mirror. bjtu. edu. cn/ubuntu/ precise - backports main multiverse 
restricted universe 

deb - src http://mirror. bjtu. edu. cn/ubuntu/ precise - proposed main multiverse 
restricted universe 

deb - src http://mirror. bjtu. edu. cn/ubuntu/ precise - security main multiverse 
restricted universe 

deb - src http://mirror. bjtu. edu. cn/ubuntu/ precise - updates main multiverse 
restricted universe 


(4) 更 新 源 : 
sudo apt- get update 


2 修改 Ubuntu 主机 的 网 络 配置 
由 于 Hadoop 是 安装 在 虚拟 机 中 ,所 以 需要 虚拟 机 能 访问 互联 网 ,然后 才能 在 线 安装 


MySQL。 这 里 把 虚拟 机 网 络 设 为 桥接 模式 ,Linux 的 网 络 设 为 与 宿主 机 中 Windows 操作 
系统 在 同一 网 段 。 具 体 参 数 设置 请 参见 3. 1. 3 小 节 的 具体 设置 。 


3. 安装 MySQL 

sudo apt- get update 

# 更 新 源 

sudo apt-get install mysql- server mysql- client 
# 安 装 MySQL 服务 器 端 和 客户 端 


MySQL 的 启动 .停止 和 重启 的 命令 如 下 。 
启动 服务 : 


hadoop@ master:~$sudo /etc/init.d/mysql start 


hadoop8 master:-$sudo service mysql start 
停止 服务 : 


hadoop@ master:~$sudo /etc/init.d/mysql stop 
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hadoop@ master:~$sudo service mysql stop 
重启 服务 : 
hadoop@ master:-$sudo /etc/init.d/mysql restart 
或 


hadoop@ master:~$sudo service mysql restart 
更 改 MySQL 配置 : 
默认 情况 下 ,MySQL 只 允许 本 地 登录 ,所 以 需要 修改 my. cnf 配置 。 


hadoop@ master:~$sudo nano /etc/mysql/my.cnf 
#bind- address=127.0.0.1 


注释 掉 上 一 句 即 可 在 任何 位 置 登录 MySQL ,然后 重启 MySQL: 
sudo service mysql restart 
登录 MySQL: 


hadoop@ master:-$mysql -uroot -p 
mysql» create database hive; 
# 创 建 hive 数据 库 


创建 用 户 hive, AAEM localhost 连接 到 数据 库 并 可 以 连接 到 hive 数据 库 : 


mysql» grant all privileges on hive. * to hive@ '$' identified by '123456'; 
# 人 允许 hive 用户 从 其 他 机 器 登录 mysq15.5 


mysql> flush privileges; 


AER: 在 mysql 库 中 user 表 中 若 有 host 为 空 , 或 权限 为 N, 都 有 可 能 导致 mysql 
uhive p 登录 不 了 ,需要 把 user 为 hive 且 host 为 “ 空 ” 的 记录 删除 ,所 有 权限 改 为 了 。 在 
linux 命令 行 下 执行 mysql uhive p ,检验 一 下 hive 能 否 登 录 , 若 不 能 ,使 用 下 面 的 命令 修改 ， 
使 hive 用 户 可 以 从 本 地 登录 。 

mysql> grant all privileges on hive.* to hive@ "127.0.0.1" identified by 

'123456'; 


mysql»grant all privileges on hive. * to hive@ "localhost" identified by '123456'; 
# 从 本 机 可 以 登录 mysqi5.5 
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TE http: //archive. apache. org/dist/hive/hive-0. 12. 0/ 处 下 载 hive0. 12. 0. tar. gz. fiti JH 
SecureFX 7. 2 把 软件 上 传 到 /home/hadoop 目录 下 。 

1 解压 软件 包 

使 用 如 下 命令 解压 : 
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hadoop@ master:-$tar zxvf hive-0.12.0.tar.gz 
把 目录 hive-0. 12. 0 改 为 hive: 
hadoop@ master:~$mv hive- 0.12.0/ hive 


2 配置 Hive 的 环境 变量 
在 /etc/profile 文件 末尾 添加 如 下 内 容 : 


export HIVE HOME- /home/hadoop/hive 
export PATH= SHIVE HOME/bin:$PATH 


使 profile 发 挥 作用 : 
hadoop@ master:-$source /etc/profile 


3. 修改 hivesitexml 文件 
指定 MySQL 数据 库 驱 动 程序 数据库 名 、 用 户 名 及 密码 ,修改 的 内 容 如 下 所 示 : 


hadoop@ master:~$cd hive 
hadoop@ master:~/hive $cd conf 


复制 hive-env. sh. template. M4 JJ hive-env. sh: 
hadoop@ master:~/hive/conf$ep hive- env.sh.template hive- env.sh 
更 改 权 限 : 


hadoop@ master:~/hive/conf$chmod u* x hive-env.sh 


AFE: hive-env. sh. template 文件 中 存在 一 个 bug. € 2 000 4f. <value > auth 
</auth> , 7% Pk K—<value>auth</value>.F UW B 25 8p JR A. 
复制 hive-default. xml. template. W% Jy hive-site. xml: 


hadoop@ master:~/hive/conf$ep hive-default.xml.template  hive- site.xml 
«property» 
«name» javax.jdo.option.ConnectionURL« /name> 
«value» jdbc:mysql://127.0.0.1:3306/hive? createDatabaseIfNotExist- true 
< /value» 
</property> 
<property> 
<name> javax.jdo.option.ConnectionDriverName< /name> 
«value» com.mysql .jdbc.Driver< /value> 
</property> 
<property> 
<name> javax.jdo.option.ConnectionUserName< /name> 
<value>hive< /value> 
</property> 
<property> 
<name> javax.jdo.option.ConnectionPassword« /name> 
«value» 123456« /value> 
< /property» 


#7% FIs  — 


4 修改 hive-log4j properties 
hadoop@ master: -/hive/conf$cp hive- log4j.properties.template hive- 1og4j.properties 


在 其 中 找到 log4j. appender. EventCounter 并 修改 : 


log4j.appender.EventCounter- org.apache .hadoop.log.metrics .EventCounter 

A 注意 : 不 设 此 步 并 无 大 碍 ,只 是 会 有 一 

5. 将 MySQL 驱动 程序 mysql-connector-java-5.1.33jar 复制 到 hivelib 目 录 中 

此 驱动 程序 可 以 从 http://dev. mysql. com/downloads/connector/j/ 处 下 载 。 


6 测试 Hive 是 否 安装 成 功 
程序 如 下 所 示 : 
hadoop@ master:~/hive/conf$hive 


hive> show tables; 
hive>exit; 


723 He 的 用 户 接口 
Hive 提供 了 3 种 用 户 接口 : CLI 接口 Web 接口 、 远 程 服务 接口 ,下 面 分 别 简 单 介绍 
= 
1. CLI 接口 


CLI #£ Command Line Interface 的 简称 ,是 Hive 为 用 户 提 供 的 一 种 简捷 交互 式 接口 ， 
该 模式 下 ,直接 执行 Hive 命令 ,如 图 7-5 所 示 。 


export HIVE HOME-/home7hadoop7hive 
export PATH=SHIVE_HOME /bin: $PATH 


hadoop@master :~$ cd hive/bi 
hadoop@master :~/hive/bin$ hive 


Ne ec Es using configuration in file:/home/hadoop/hive/conf /hive-1094j. properties 
t 


[Time taken: 5.959 seconds 
hive» show databases; 


default 
[Time taken: 0.091 seconds, Fetched: 1 row(s) 
hive B 
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因为 安装 Hive 时 已 经 在 /etc/profile 文件 中 配置 了 下 面 两 句 : 


export HIVE HOME= /home/hadoop/hive 
export PATH= $HIVE HOME/bin:$PATH 


所 以 直接 执行 hive 命令 即 可 进入 CLI 模式。 也 可 以 进入 $ HIVE_HOME/bin 目录 ， 


执行 . hive。 
Hive 的 常用 参数 有 : 
-e<quoted-query-string > 从 命令 行 执行 SQL 
-f< filename 从 文件 中 执行 SQL 


-H.--help 打印 帮助 信息 
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-h<hostname> 连接 到 远程 的 Hive 服务 器 
在 命令 行 执行 查询 login 表 的 命令 . 
hadoop@ master:~S$HIVE_HOME/bin/hive -e 'select * from login' 


Logging initialized using configuration in  file:/home/hadoop/hive/conf/hive - 
log4j.properties 


OK 

1510701 192.168.1.1 20141030 
1510702 192.168.1.2 20141030 
1510703 192.168.1.3 20141030 


1510704 192.168.1.4 20141030 
Time taken: 5.979 seconds, Fetched: 4 row(s) 


2 Web 接口 

HWI 是 Hive Web Interface 的 简称 ,是 hive cli 的 一 个 Web 替换 方案 。 
在 命令 行 执行 下 面 的 命令 启动 Hive 的 Web 接口 。 

hadoop@ master:~Shive - - service hwi 


在 浏览 器 地 址 栏 输入 http: //192. 168. 1. 10:9999/hwi/ 即 可 通过 Web 界面 浏览 数据 、 


认证 、 创 建 会 话 等 ,如 图 7-6 所 示 。 


usen Change User Info 
会 Home 

Authorize User 
QBrowse Schema Groups. 


SESSIONS 


A Create Session 
QUst Sessions 


DiACNOSTICS 


© Diagnostics 
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3 远程 服务 接口 
Hive 提供 了 jdbc 驱动 程序 ,使 用 户 可 以 用 Java 代码 来 连接 Hive 并 进行 一 些 类 关系 型 数 


据 库 的 SQL 语句 查询 等 操作 。 同 关系 型 数据 库 一 样 ,也 需要 将 Hive 的 服务 打开 ,如 下 : 


hive -- service hiveserver - p 10002 


上 面 代 表 已 经 成 功 地 在 端口 10002( 默 认 的 端口 是 10000) 启 动 了 hiveserver 服务 。 这 


时 ,就 可 以 通过 Java 代码 来 连接 hiveserver。 


创建 一 个 Java 项 目 ,导入 Hadoop 包 及 Hive/lib 下 的 包 , 在 Eclipse 下 , 右 击 Java 类 ,在 


弹出 的 快捷 菜单 中 ,选择 Run As 下 的 Run on Hadoop 命令 即 可 运行 。 


代码 如 下 : 


import java.sql.SQLException; 
import java.sql.Connection; 
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import java.sql.ResultSet; 
import java.sql.Statement; 
import java.sql.DriverManager; 
public class HiveTest ( 
private static String driverName- "org.apache.hadoop.hive.jdbc. 
HiveDriver"; 
public static void main(String[] args) throws SQLException { 
try { 
Class.forName (driverName) ; 
) catch (ClassNotFoundException e) ( 
e.printStackTrace () ; 
System.exit (1); 
; 
Connection con- DriverManager.getConnection ( 
"jdbc:hive://192.168.1.10:10002/default", "", ""); 
Statement stmt- con.createStatement () ; 
String tableName- "testtable"; 
stmt.execute ("drop table if exists "+ tableName) ; 
stmt.execute ("create table "+ tableName+" (key int, value string)"); 
System.out.println ("Create table success!"); 
//show tables 
String sql- "show tables '"+tableNamet+ "'"; 
System.out.println("Running: "*sql); 
ResultSet res- stmt .executeQuery (sql); 
if (res.next()) ( 
System.out.println(res.getString(1)); 
) 
//describe table 
Sql- "describe "+ tableName; 
System.out.println("Running: "+ sql); 
res- stmt .executeQuery (sql); 
while (res.next()) ( 
System.out .println (res.getString(1)+"\t"+ res. 
getString (2) ); 
} 
sql="select * from "+tableName; 
res- stmt .executeQuery (sql) ; 
while (res.next()) { 
System.out .println (String.valueOf (res.getInt (1))+"\t"+ res. 
getstring(2)); 
) 
sql="select count (1) from "+ tableName; 
System.out.println("Running: "+ Sql); 
res- stmt .executeQuery (sql); 
while (res.next()) ( 
System.out .println (res.getString(1)); 
} 
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7.3 Hive QL 讲解 


Hive 是 一 个 基于 Hadoop 的 数据 仓库 , 它 提供 了 数据 的 抽取 、 转 换 、 加 载 等 功能 ,以 及 
数据 的 存储 管理 .查询 分 析 功能 。 为 了 实现 关系 型 数据 库 向 大 数据 的 过 渡 , Hive 还 提供 了 
Hive QL. Hive QL 简称 为 HQL ,类似 于 SQL, 但 又 没有 实现 常见 SQL 语言 所 遵守 的 
SQL-92 全 集 。Hive 提供 了 SQL 的 解析 过 程 ,从 外 部 接口 中 接收 命令 ,对 外 部 命令 进行 解 
析 后 ,转换 成 MapReduce 执行 计划 , 按 计 划 生 成 MapReduce 任务 , 交 由 Hadoop 执行 。 下 
面 介绍 HQL。 


74 [I 命令 
1 数据 库 相 关 命 令 


1) 创建 数据 库 
语法 : 


CREATE (DATABASE |SCHEMA) [IF NOT EXISTS] database name 
[COMMENT database comment] 
[LOCATION hdfs path] 
[WITH DBPROPERTIES (property name-property value, ...)]; 


(1) 创建 简单 的 数据 库 。 
示例 : 
hive> CREATE DATABASE testdb; 
OK 
Time taken: 5.43 seconds 
hive> SHOW DATABASES; 
OK 
default 
testdb 
Time taken: 4.084 seconds, Fetched: 2 row(s) 


如 果 Hive 中 数据 库 非常 多 ,可 以 使 用 正则 表达 式 检索 ,例如 : 


hive» SHOW DATABASES LIKE 't.* '; 
OK 
testdb 
Time taken: 4.391 seconds, Fetched: 1 row(s) 


数据 库 中 的 表 存 在 于 和 数据 库 同 名 的 HDFS 目录 中 。Hive 中 有 一 个 默认 数据 库 
default, 它 没有 目录 ,default 中 的 表 直 接 存在 Hive 数据 目录 中 ,该 目录 由 hive. metastore. 
warehouse. dir 参数 指定 。 如 果 没 有 指定 数据 库 的 路 径 , 默 认 路 径 为 /user/hive/warehouse 
目录 下 ,如 刚才 创建 的 testdb 数据 库 路 径 为 /user/hive/warehouse/testdb. db. 

(2) 创建 数据 库 的 同时 ,设置 数据 库 的 存储 路 径 , 代 码 如 下 : 


hive> CREATE DATABASE testdb2 
> LOCATION ' /user/mydb' ; 
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OK 
Time taken: 4.167 seconds 


执行 上 面 命令 后 ,数据库 存储 在 /user/mydb 目录 下 。 
(3) 在 建 库 的 同时 ,给 数据 库 添加 注释 。 


hive> CREATE DATABASE testdb3 
> COMMENT 'This ia a test database'; 


使 用 describe database- database #¥ £i i4 Pe t FERE B P 15 s 


hive» describe database testdb3; 

OK 

testdb3 This ia a test database hdfs://192.168.1.10:9000/user/hive/warehouse/testdb3.db 
Time taken: 4.322 seconds, Fetched: 1 row(s) 


(4) 创建 数据 库 的 同时 ,为 数据 库 添 加 键 值 对 作为 参数 。 


hive> CREATE DATABASE testdb4 
» WITH DBPROPERTIES ('creator'- 'zenggang', 'date'= '2014- 10- 28"); 


使 用 describe database extended 一 database 二 查看 数据 参数 。 


hive> DESCRIBE DATABASE EXTENDED testdb4; 
OK 
testdb4 hdfs://192.168.1.10:9000/user/hive/warehouse/testdb4.db {date=2014- 
10-28, creator- zenggang] 
Time taken: 4.313 seconds, Fetched: 1 row(s) 


2) 选择 数据 库 
使 用 USE 命令 选择 当前 操作 的 数据 库 ( 默 认为 default) 。 


hive» USE testdb4; 

使 用 默认 数据 库 。 

hive>USE default; 

3) 删除 库 

语法 : 

DROP (DATABASE | SCHEMA) [IF EXISTS] database name [RESTRICT|CASCADE]; 
示例 : 

hive> DROP DATABASE IF EXISTS testdb4; 


当 数据 库 中 存在 表 时 ,需要 加 CASCADE 才能 删除 。 一 旦 删除 成 功 ,数据 库 在 HDFS 
中 的 文件 夹 也 被 删除 。 


hive> DROP DATABASE IF EXISTS testdb3 CASCADE; 


2 表 相 关 命 令 
1) 创建 表 
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语法 : 

CREATE [TEMPORARY] [EXTERNAL] TABLE [IF NOT EXISTS] [db name.]table name 
(col name data type [COMMENT col comment], ...)] 

COMMENT table comment] 

PARTITIONED BY (col name data type [COMMENT col comment], ...)] 


CLUSTERED BY (col name, col name, ... [SORTED BY (col name [ASC|DESC], ...)] 
INTO num buckets BUCKETS] 
SKEWED BY (col name, col name, ...) ON ([(col value, col value, ...), ...|lcol 


value, col value, ...]) 
[STORED AS DIRECTORIES] 


[ROW FORMAT row format] 
[STORED AS file format] 
| STORED BY 'storage.handler.class.name' [WITH SERDEPROPERTIES (..)] ] 
LOCATION hdfs path] 
TBLPROPERTIES (property name-property value, ...)] 
AS select statement]; 

使 用 CREATE TABLE 命令 创建 一 个 指定 名 字 的 表 。 如 果 相 同名 字 的 表 已 经 存在 , 则 
抛 出 异常 ;用 户 可 以 用 IF NOT EXIST 选项 来 忽略 这 个 异常 。 

EXTERNAL 关键 字 可 以 让 用 户 创建 一 个 外 部 表 。 在 表 结 构 创 建 以 前 ,数据 已 经 保存 
在 HDFS 中 , 建 表 时 指定 一 个 指向 该 实际 数据 的 路 径 (LOCATION)。Hive 创建 内 部 表 时 ， 
将 数据 移动 到 数据 仓库 指向 的 路 径 ;车 创建 外 部 表 , 仅 记录 数据 所 在 的 路 径 ,不 对 数据 的 位 
置 做 任何 改变 。 在 删除 表 时 ,内 部 表 的 元 数据 和 数据 被 一 起 删除 ,而 外 部 表 只 删除 元 数据 ， 
不 删除 数据 。 

LIKE 允许 用 户 复制 现 有 的 表 结 构 ,但 是 不 复制 数据 。 

用 户 在 建 表 时 可 以 自 定义 SerDe 或 者 使 用 自 带 的 SerDe。 如 果 没 有 指定 ROW 
FORMAT 或 者 ROW FORMAT DELIMITED ,将 使 用 自 带 的 SerDe。 在 建 表 时 ,用 户 还 需 
要 为 表 指 定 列 ,用 户 在 指定 表 的 列 的 同时 也 会 指定 自 定义 的 SerDe, Hive 通过 SerDe 确定 
表 的 具体 列 的 数据 。 

如 果 文 件数 据 是 纯 文 本 ,可 以 使 用 STORED AS TEXTFILE 命令 。 如 果 数 据 需 要 奈 
缩 ,使 用 STORED AS SEQUENCE 命令 。 

有 分 区 的 表 可 以 在 创建 时 使 用 PARTITIONED BY 语句 。 一 个 表 可 以 拥有 一 个 或 者 
多 个 分 区 ,每 一 个 分 区 单独 存在 一 个 目录 下 。 而 且 , 表 和 分 区 都 可 以 对 某 个 列 进行 
CLUSTERED BY 操作 ,将 若干 个 列 放 入 一 个 桶 (Bucket) 中 。 也 可 以 利用 SORT BY 对 数 
据 进 行 排序 。 这 样 可 以 为 特定 应 用 提高 性 能 。 

表 名 和 列 名 不 区 分 大 小 写 ,SerDe 和 属性 名 区 分 大 小 写 。 表 和 列 的 注释 是 字符 串 。 

示例 如 下 。 

CD 创建 一 个 普通 表 : 


hive> CREATE TABLE IF NOT EXISTS test 1 
> (id INT, 
>name STRING, 
>address STRING); 
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也 可 以 在 创建 表 时 ,指定 存储 格式 。 
(2) 创建 一 个 外 部 表 : 
CREATE EXTERNAL TABLE external table (dummy STRING) 
LOCATION '/user/tom/external table'; 
LOAD DATA INPATH '/user/tom/data.txt' INTO TABLE external table; 
如 果 对 表 的 操作 都 在 Hive 中 ,建议 使 用 内 部 表 , 如 果 对 数据 的 操作 除了 Hive 还 有 其 
他 工具 ,建议 用 外 部 表 。 
(3) 创建 分 区 表 : 有 分 区 的 表 可 以 在 创建 时 使 用 PARTITIONED BY 语句。 一 个 表 可 
以 拥有 一 个 或 者 多 个 分 区 ,每 一 个 分 区 单独 存在 一 个 目录 下 。 而 且 , 表 和 分 区 都 可 以 对 某 个 
列 进行 CLUSTERED BY 操作 ,将 若干 个 列 放 入 一 个 桶 (Bucket) 中 。 也 可 以 利用 SORT 
BY 对 数据 进行 排序 ,这 样 可 以 为 特定 应 用 提高 性 能 。 
hive> CREATE TABLE partition table (id INT, name STRING, city STRING) 
> PARTITIONED BY (pt STRING) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t'; 
分 区 表 实际 是 一 个 文件 夹 , 表 名 即 文件 夹 名 。 每 个 分 区 ,实际 是 表 名 这 个 文件 夹 下 面 的 
不 同文 件 。 分 区 可 以 根据 时 间 、 地 点 等 进行 划分 。 比 如 ,每 天 一 个 分 区 ,等 于 每 天 存 该 天 的 
数据 ;或 者 每 个 城市 一 个 分 区 ,存放 该 城市 的 数据 。 每 次 查询 数据 时 ,只 要 写 下 类 似 where 
pt—2010 08 23 这 样 的 条 件 即 可 查询 指定 时 间 的 数据 。 
总 体 而 言 ,普通 表 , 类 似 MySQL 的 表 结 构 , 外 部 表 的 意义 更 多 是 指数 据 的 路 径 映 射 。 
分 区 表 , 是 最 难以 理解 ,也 是 Hive 最 大 的 优势 。 
(4) 创建 一 个 与 已 经 存在 的 表 结构 相同 的 表 。 
hive> create table user2 like user; 
这 时 创建 一 个 与 user 表 结 构 相 同 的 user2 表 , 但 不 复制 user 表 的 数据 。 
2) 修改 表 结构 
(1) 给 表 增 加 字段 : 对 user 表 添 加 四 个 字段 address, ,telephone .qq birthday. 
hive>alter table User add columns 
> (address String, 
» telephone String, 


>qq string, 
»birthday date); 


(2) 修改 表 的 字段 名 : 
hive» ALTER TABLE user CHANGE address addr STRING; 


此 命令 中 address 为 原 字段 名 ,addr 为 新 字段 名 ,STRING 为 字段 类 型 。 
3) 修改 表 名 

语法 : 

hive>alter table test 1 rename to test table; 


4) 删除 表 
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语法 : 

DROP TABLE [IF EXISTS] table name; 
示例 : 

hive> DROP TABLE IF EXISTS test table; 


3. 视图 操作 
1) 创建 视图 
Hive M 0. 6 版 本 开始 支持 视图 (View) ,视图 只 是 一 个 逻辑 存在 ,只 读 , 不 支持 LOAD, 
INSERT, ALTER 等 操作 ,Hive 支持 视图 迭代 。 
语法 : 
CREATE VIEW [IF NOT EXISTS] view name [(column name [COMMENT column comment], ...) ] 
[COMMENT view comment] 


[TBLPROPERTIES (property name-property value, ...)] 
AS SELECT ...; 


示例 ; 


hive» CREATE VIEW user view 
>as 
> SELECT name from user; 


2) 修改 视图 

hive» ALTER VIEW user view SET TBLPROPERTIES ('created at'- "2014- 10- 29'); 
3) 删除 视图 

hive» DROP VIEW IF EXISTS user view; 


4 索引 操作 

Hive 中 创建 索引 的 目的 就 是 在 查询 一 个 表 中 某 列 值 时 提升 速度 ,如 果 查 询 语句 中 有 
"WHERE tabl. coll 王 10 这样 的 语句 ,但 没有 索引 ,就 会 调 入 整 张 表 , 处 理 所 有 行 ;如 果 有 和 针 
对 该 列 的 索引 存在 ,那么 只 有 需要 的 那 部 分 数据 才 被 调和 并 处 理 。 

查询 速度 的 提升 是 以 额外 的 创建 索引 和 存储 索引 为 代价 的 。 

索引 是 标准 的 数据 库 技术 ,Hive 0. 7 版 本 之 后 支持 索引 。Hive 提供 有 限 的 索引 功能 ， 
这 不 像 传统 的 关系 型 数据 库 那 样 有 * 键 (key) ”的 概念 ,用 户 可 以 在 某 些 列 上 创建 索引 来 加 速 
某 些 操作 ,给 一 个 表 创 建 的 索引 数据 被 保存 在 另外 的 表 中 。Hive 的 索引 功能 现在 还 相对 较 
35 ,提供 的 选项 还 较 少 。 但 是 ,索引 被 设计 为 可 使 用 内 置 的 、 可 捅 拔 的 Java 代码 来 定制 ,用 
户 可 以 扩展 这 个 功能 来 满足 自己 的 需求 。 当 然 不 是 说 所 有 的 查询 都 会 受 惠 于 Hive 索引 。 
用 户 可 以 使 用 EXPLAIN 语法 来 分 析 HQL 语句 是 否 可 以 使 用 索引 来 提升 用 户 查询 的 性 
能 。 像 RDBMS 中 的 索引 一 样 ,需要 评估 索引 创建 的 是 否 合理 ,毕竟 ,索引 需要 更 多 的 磁盘 
空间 ,并 且 创 建 和 维护 索引 也 要 有 一 定 的 代价 。 用 户 必须 要 权衡 从 索引 得 到 的 好 处 和 所 付 
出 的 代价 。 

1) 创建 显示、 删除 索引 
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CREATE INDEX table01 index ON TABLE table01 (column2) AS 'COMPACT'; 
SHOW INDEX ON table01; 


DROP INDEX table01 index ON table01; 

2) 重建 Index 

语法 : 

ALTER INDEX index name ON table name [PARTITION partition spec] REBUILD; 


假如 在 创建 索引 时 ,使 用 了 WITH DEFERRED REBUILD 语句 ,可 以 通过 ALTER 


INDEX...REBUILD 重建 以 前 创建 过 的 索引 ,如 果 指 定 过 分 区 , 则 只 有 那个 分 区 上 的 索引 
重建 。 


ABER: 当 Hive 表 中 的 数据 更 新 时 ,必须 使 用 此 语句 更 新 索引 ,Index rebuild 操作 是 
一 个 原子 操作 ,因此 当 rebuild 失败 时 ,先前 构建 的 索引 也 无 法 使 用 。 
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1. 加 载 数 据 


Hive 装载 数据 没有 做 任何 转换 ,加 载 到 表 中 的 数据 只 是 移动 到 了 Hive 表 对 应 的 文件 
夹 中 。 加 载 数据 的 语法 如 下 : 


LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcoll- 
vall, partcol2-val2 ...)] 
filepath 可 以 是 以 下 类 型 。 
。 相对 路 径 , 例 如: project/datal. 
。 绝对 路 径 , 例 如 : /user/hive/project/datal, 
* 包含 模式 的 完整 URI, 例 如 : hdfs://namenode:9000/user/hive/project/datal 。 
加 载 的 目标 可 以 是 一 个 表 或 者 分 区 ,如 果 表 包含 分 区 ,必须 指定 一 个 分 区 名 。filepath 
可 以 是 一 个 文件 ,此 时 , Hive 会 把 文件 移动 到 表 所 对 应 的 目录 中 ;如 果 filepath 是 一 个 目 
录 , 则 把 目录 下 的 所 有 文件 移动 到 表 所 对 应 的 目录 中 。 
命令 中 若 指定 了 local 选项 , 则 转 到 服务 器 本 地 文件 系统 的 filepath 中 。 若 是 相对 路 
径 , 则 路 径 被 解析 成 为 当前 用 户 的 当前 路 径 。 当 然 ,filepath 也 可 以 是 一 个 完整 的 路 径 。 例 
如 : file;///user/hive/project/datal 。 
若 没 有 local 选项 ,filepath 则 指向 一 个 完整 的 URI。 
车 有 OVERWRITE 选项 , 则 目标 表 中 的 内 容 会 被 删除 ,然后 再 把 filepath 中 的 文件 移 
动 到 表 / 分 区 中 。 
现 有 一 张 表 , 建 表 语 句 如 下 所 示 : 
hive» CREATE TABLE login ( 
>uid BIGINT, 
>ip STRING 
2) 
> PARTITIONED BY (pt string) 
>ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 


= 该 表 记 录用 户 登 录 信 息 , 表 示 登 录 表 ip 字段 和 uid 字段 以 分 隔 符 ', AI. VA pt 字符 串 
进行 分 区 , 表 以 文本 文件 格式 存储 。 
输出 hive 表 对 应 的 数据 : 


hadoop@ master:~$ printf "%s,%s\n" 11151007001 192.168.1.1» » login.txt 
hadoop8master:«$ printf "%s,%s\n" 11151007002 192.168.1.2» » login.txt 
hadoop@ master:~$cat login.txt 

11151007001, 192.168.1.1 

11151007002, 192.168.1.2 


1) 加 载 本 地 数据 到 Hive 表 


hive> LOAD DATA LOCAL INPATH '/home/hadoop/login.txt' OVERWRITE INTO TABLE login PARTITION 
(pt= '20141030"); 

Copying data from file: /home/hadoop/login.txt 

Copying file: file:/home/hadoop/login.txt 

Loading data to table default.login partition (pt- 20141030) 

Partition default.login(pt- 20141030) stats: [num files: 1, num rows: 0, total size: 40, raw 
data size: 0] 

Table default.login stats: [num partitions: 1, num files: 1, num rows: 0, total size: 40, raw 
.data size: 0] 

OK 

Time taken: 0.273 seconds 

hive> SELECT * FROM LOGIN; 

OK 

1510701 192.168.1.1 20141030 

1510702 192.168.1.2 20141030 

Time taken: 0.15 seconds, Fetched: 2 row(s) 


该 命令 从 Linux Æ Hh X fF 3€ /home/hadoop/ A a F AY login. txt 文件 加 载 数据 , 放 入 
20141030 分 区 中 , 

2) 加 载 HDFS 中 的 文件 

现 有 另 一 文件 login2. txt, 把 它 上 传 到 HDFS 文件 系统 /tmp 目录 中 ,命令 如 下 : 


hadoop@ master:~$printf "%s,%s\n" 11151007003 192.168.1.3>> login2.txt 

hadoop@ master:~$printf "%s,%s\n" 11151007004 192.168.1.4>> login2.txt 

hadoop@ master:~$hadoop fs -put login2.txt /tmp 

hadoop@ master:~$hadoop fs -1s /tmp 

Found 2 items 

drwxr-xr-x  -hadoop supergroup 0 2014- 10- 30 08:33 /tmp/hive- hadoop 

-rw-r--r-- 3 hadoop supergroup 48 2014- 10- 30 09:17 /tmp/login2.txt 

hive» LOAD DAIA INPATH '/tmp/login2.txt' INTO TABLE login PARTITION (pt= '20141030'); 

Loading data to table default.login partition (pt- 20141030) 

Partition default.login(pt- 20141030} stats: [num files: 2, num rows: 0, total size: 80, raw 
data size: 0] 

Table default.login stats: [num partitions: 1, num files: 2, num rows: 0, total size: 80, raw 
.data size: 0] 

OK 

Time taken: 0.326 seconds 

hive» SELECT * FROM LOGIN; 

OK 


1510701 192.168.1.1 20141030 
1510702 192.168.1.2 20141030 
1510703 192.168.1.3 20141030 
1510704 192.168.1.4 20141030 


Time taken: 0.094 seconds, Fetched: 4 row(s) 


在 加 载 中 并 未 用 到 OVERWRITE, login2. txt 文件 中 的 数据 会 被 追加 到 login 表 中 。 

Ate: Hive 并 不 支持 使 用 insert 语句 一 条 一 条 地 插入 数据 ,也 不 支持 使 用 update 
语句 进行 更 新 ,只 支持 使 用 Load 语句 批量 载 入 ,数据 一 旦 载 入 就 不 可 以 更 改 了 。 

2 查询 结果 插入 到 表 

Hive 支持 将 查询 结果 插入 表 中 ,目标 表 的 结构 要 与 查询 结果 结构 相同 。 

D ARMA 

将 源 表 中 的 数据 通过 查询 语句 插入 目标 表 ( 可 以 是 新 建 表 ) 中 。 

hive» create table login? (uid BIGINT); 

hive» INSERT OVERWRITE TABLE login? select distinct uid FROM login; 

2) 多 表 插 人 

现 有 两 个 表 login. uid 和 login ip. login uid 表 中 有 uid 字段 ,login_ip 表 中 有 ip 字段 ， 
两 表 的 建 表 诸 句 如 下 : 


hive> create table login ip (ip STRING); 
hive> create table login uid(uid bigint); 


将 login 表 中 的 数据 查询 后 ,插入 login uid 和 login ip 两 个 表 中 。 


hive> from login 
> insert overwrite table login uid 
>select uid 
> insert overwrite table login ip 
>select ip; 
3, 查询 结果 输出 到 文件 系统 中 
iik. 
FROM from statement 


INSERT OVERWRITE [LOCAL] DIRECTORY directoryl select statementl 
[INSERT OVERWRITE [LOCAL] DIRECTORY directory2 select statement2] ... 


示例 : 


hive> FROM login 
> INSERT OVERWRITE LOCAL DIRECTORY '/home/hadoop/login' SELECT * 
> INSERT OVERWRITE DIRECTORY '/tmp/ip' SELECT ip; 

此 语句 在 Linux 服务 器 的 /home/hadoop 目录 下 生成 login 目录 ,在 目录 下 生成 000000_0 
文件 和 .000000_0. ere 文件 ,另外 在 HDFS 的 /tmp/ 下 生成 ip 目 录 , 生 成 000000_0(48.0b 
r3) 文 件 。 

在 Hive 目前 版 本 暂时 还 不 支持 UPDATE 和 DELETE, KH 0. 14 版 本 中 予以 支持 。 
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Hive 提供 了 便捷 的 数据 查询 功能 ,这 也 是 Hive 得 到 广泛 使 用 的 原因 之 一 。Hive 的 


SELECT 与 关系 型 数据 库 的 SELECT 既 有 相似 之 处 ,也 有 不 同 之 处 ,下 面 进行 简单 介绍 。 


iik: 


SELECT [ALL | DISTINCT] select expr, select expr, ... 
FROM table reference 
[WHERE where condition] 
[GROUP BY col list] 
[CLUSTER BY col list 
| [DISTRIBUTE BY col list] [SORT BY col list] 
] 
[LIMIT number] 


table reference 是 查询 的 输入 ,可 以 是 表 、 视 图 、Join 或 子 查询 。 
1. 简单 查询 


SELECT * FROM tl 


该 查询 返回 tl 表 中 的 所 有 行 及 所 有 列 。SELECT * 没有 被 转化 为 MapReduce 任务 ， 


也 是 唯一 没有 被 转化 为 MapReduce 任务 的 查询 。 


2 查询 另外 库 中 的 数据 

USE database name; 

SELECT query specifications; 
USE default; 


在 查询 过 程 中 ,可 以 使 用 use database name 进行 数据 库 的 切换 ,查询 另外 一 个 数据 库 


中 的 数据 ,使 用 USE default 切换 到 默认 数据 库 。 


3. WHERE F 4] 
WHERE 子 句 是 一 个 逻辑 表达 式 , 例 如 下 面 的 例子 只 返回 销售 总 额 大 于 10 以 及 归属 


地 是 Dalian 的 数据 。 从 Hive 0. 13 开始 WHERE 子 句 可 以 是 子 查询 。 


SELECT * FROM sales WHERE amount>10 AND region= "Dalian" 


4. ALL 和 DISTINCT ¥ 4] 
ALL 和 DISTINCT 选项 指定 了 是 否 有 重复 行 被 返回 ,如 果 没 有 给 出 这 两 个 选项 ,默认 


是 ALL( 返 回 所 有 行 )。DISTINCT 选项 去 除 返 回 行 中 重复 的 结果 集 。 


hive> SELECT coll, col2 FROM tl 
13 
13 
14 
25 
hive» SELECT DISTINCT coll, col2 FROM tl 
13 
14 


25 
hive»SELECT DISTINCT coll FROM tl 
1 
2 
正如 上 面 三 条 请 句 中 ,语句 1 返回 tl 表 中 coll .col2 列 的 全 部 行 ,请 句 2 返回 去 除了 
coll 与 col2 两 列 中 重复 的 行 ,语句 3 中 去 除了 coll 列 中 所 有 重复 列 。 
5 基于 分 区 的 查询 
一 般 情 况 下 ,一 个 SELECT 查询 会 扫描 整个 表 ( 除 了 抽样 查询 )。 如 果 创 建 表 时 使 用 了 
PARTITIONED BY 子 句 ,查询 可 以 只 扫描 它 关 注 的 那 一 小 部 分 。 如 果 在 WHERE 子 句 中 
或 JOIN 子 句 中 指定 了 分 区 预测 , 它 就 会 做 分 区 * 剪 枝 ”。 例 如 ,一 个 表 page views 是 根据 
date 列 分 的 区 ,下 面 的 查询 仅 返 回 2014-03-01 和 2014-03-31 的 数据 。 
SELECT page views. * 
FROM page views 
WHERE page views.date»- '2014- 03- 01' AND page views.date«- '2014- 03- 31' 
6. HAVING F f] 
Hive f£ 0. 7 版 本 才 加 入 了 对 HAVING 子 句 的 支持 ,在 Hive 的 旧版 本 中 同样 的 功能 就 
需要 用 子 查询 才能 实现 了 。 
SELECT coll FROM t1 GROUP BY coll HAVING SUM(col2)» 10 


上 面 的 语句 在 0. 70 以 前 的 版 本 要 转换 为 下 面 的 语句 


SELECT coll FROM (SELECT coll, SUM(col2) AS col2sum FROM tl GROUP BY coll) t2 WHERE t2.col2sum 
>10 


7. LIMIT 限制 
Limit 表明 了 返回 的 行 数 。 返 回 的 行 是 随机 选择 的 ,下 面 的 查询 仅 返回 tl 表 中 随机 的 


SELECT * FROM t1 LIMIT 5 
下 面 的 查询 将 返回 销售 额 前 5 名 的 销售 记录 : 


SET mapred.reduce.tasks- 1l // 把 Reduce 任务 数 设 为 1, 默 认 值 也 为 1 

SELECT * FROM sales SORT BY amount DESC LIMIT 5 

8. 正则 表达 式 查询 

正则 表达 式 是 进行 模糊 查询 与 过 滤 的 好 方法 , Hive 查询 也 提供 了 对 正则 表达 式 的 支 
持 。 下 面 的 查询 将 返回 除了 high 5 weight 以 外 的 所 有 列 。 


SELECT (highlweight)? +.+` FROM staff; 


9. GROUP BY 分 组 查询 
GROUP BY 分 组 查询 在 数据 统计 时 经 常 使 用 到 。 如 下 面 的 例子 就 是 根据 性 别 去 重新 
统计 用 户 数 。 


INSERT OVERWRITE TABLE pv gender sum 
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SELECT pv users.gender, count (DISTINCT pv users.userid) 
FROM pv users 
GROUP BY pv users.gender; 


AER. 在 同一 个 查询 语句 中 不 能 有 多 个 DISTINCT 去 重 列 。 


10. ORDER BY 排序 查询 

Hive 中 的 ORDER BY 排序 子 句 与 SQL 中 的 ORDER BY 非常 相似 。 但 Hive 中 的 
ORDER BY 有 所 限制 ,在 严格 模式 下 (hive. mapred. mode= strict), ORDER BY 子 句 必须 
对 LIMIT 子 句 加 以 限制 ,如 果 hive. mapred. mode 被 设 为 nonstrict 时 ,LIMIT 子 句 就 不 是 
必需 的 了 。 为 了 使 全 局 数据 有 序 ,必须 设置 一 个 Reduce 任务 ,这 样 才 能 保证 最 后 的 输出 数 
据 是 有 序 的 。 如 果 输 出 的 行 数 太 多 , 仅 有 一 个 Reduce 任务 时 可 能 会 需要 较 长 的 时 间 才 能 
完成 。 如 : 

hive>hive.mapred.mode= strict; 

hive> SELECT * FROM login ORDER BY uid LIMIT 3; 

11. SORT BY 查询 

Hive 在 把 行 数据 输出 到 Reducer 之 前 会 使 用 SORT BY 语句 对 数据 进行 排序 。 排 序 
将 会 依赖 于 列 的 类 型 ,如 果 是 数字 型 的 列 ,按照 数字 的 顺序 排列 ,如 果 是 字符 串 型 的 列 , 按 字 
符 的 顺序 排列 。 

SORT BY 与 ORDER BY 的 区 别 : SORT BY 是 在 每 个 reducer 中 对 数据 进行 排序 ,所 
以 ORDER BY 能 保证 在 全 体 输出 数据 中 是 有 序 的 ;而 SORT BY 只 能 保证 在 一 个 reducer 
内 部 的 数据 是 有 序 的 ,如 果 有 多 个 reducer 时 ,SORT BY 可 能 会 输出 部 分 有 序 的 数据 。 
例如 : 


SELECT key, value FROM src SORT BY key ASC, value DESC 


查询 有 两 个 reducer, 每 个 输出 如 下 。 
reducer] 的 输出 : 


wwoo 
Fawn 


reducer? 的 输出 : 


proo 
Orws 


从 此 可 以 看 出 SORT BY 的 作用 域 了 。 


12. CLUSTER BY 与 DISTRIBUTE BY 

根据 DISTRIBUTE BY 指定 的 内 容 将 数据 分 到 同一 个 reducer, mi CLUSTER BY 除了 
具有 DISTRIBUTE BY 的 功能 外 ,还 会 对 该 字段 进行 排序 。 因 此 ,常常 认为 CLUSTER 
BY=DISTRIBUTE BY+SORT BY, 


B 连接 查询 

连接 查询 (Join) 是 将 两 个 表 在 共同 数据 项 上 相互 匹配 的 那些 行 合并 后 进行 查询 的 操 
HQL 的 连接 查询 分 为 内 连接 、 左 外 连接 、 碳 外 连接 、 全 连接 和 半 连 接 。 

HMA stuinfo 和 choice 两 个 表 , 结 构 和 数据 如 下 所 示 。 


hive> create table stuinfo( 

>uid bigint, 

>name string) 

> ROW FORMAT DELIMITED FIELDS TERMINATED BY ','; 
hive» create table choice( 

>uid bigint, 

> subject string) 

> ROW FORMAT DELIMITED FIELDS TERMINATED BY ', '; 


生成 文本 文件 内 容 : 


hadoop@ master:~$printf '%s,%s\n' 1510701 zhangsan>>a.txt 
hadoop@ master:~$printf '%s,%s\n' 1510702 lisi>>a.txt 

hadoop@ master:-$printf '%s,%s\n' 1510703 wangwu>>a.txt 
hadoop@ master:~Scat a.txt 

1510701, zhangsan 

1510702, lisi 

1510703, wangwu 

hadoop@ master:~Sprintf '%s,%s\n' 1510701 English>>choice.txt 
hadoop@ master:-$printf '%s,%s\n' 1510702 Chinese>>choice.txt 
hadoop@ master:-$printf '%s,%s\n' 1510704 Math>>choice.txt 
hadoop@ master:~Scat choice.txt 

1510701,English 

1510702, Chinese 

1510704,Math 


加 载 文件 : 


hive> load data local inpath '/home/hadoop/a.txt' into table stuinfo; 
hive» load data local inpath '/home/hadoop/choice.txt' into table choice; 


D 内 连接 


select stuinfo.uid, name,subject from stuinfo join choice on stuinfo.uid- choice.uid; 
Total MapReduce jobs=1 


OK 
1510701 zhangsan English 
1510702 lisi Chinese 


Time taken: 23.26 seconds, Fetched: 2 row(s) 


可 以 看 出 ,只 有 在 左 、 右 两 表 中 都 有 的 数据 才 出 现在 内 连接 查询 结果 中 。 
2) 左 连接 


hive> select stuinfo.uid, name, subject from stuinfo left outer join choice on stuinfo.uid= 
choice.uid; 
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Total MapReduce jobs-1 


OK 

1510701 zhangsan English 
1510702 lisi Chinese 
1510703 wangwu NULL 


Time taken: 18.87 seconds, Fetched: 3 row(s) 


左 外 连接 是 以 左边 表 为 基准 与 右 表 进行 连接 , 当 右 表 中 没有 相应 记录 时 ,以 NULL 


填充 。 


3) 布 连接 


hive> select choice.uid, name, subject from stuinfo right outer join choice on stuinfo.uid= 
choice.uid; 


Total MapReduce jobs=1 


OK 

1510701 zhangsan English 
1510702 lisi Chinese 
1510704 NULL Math 


Time taken: 18.449 seconds, Fetched: 3 row(s) 


右 连 接 是 以 右 表 为 基准 与 左 表 进行 连接 , 当 左 表 中 没有 相应 记录 时 ,以 NULL 填充 。 
4) 全 连接 


hive> select stuinfo.uid, name, choice.uid, subject from stuinfo full outer join choice on 
stuinfo.uide choice.uid; 


Total MapReduce jobs=1 


OK 
1510701 zhangsan 1510701 English 
1510702 lisi 1510702 Chinese 


1510703 wangwu NULL NULL 
NULL NULL 1510704 Math 
Time taken: 18.469 seconds, Fetched: 4 row(s) 


5) 半 连 接 
半 连 接 是 Hive 特有 的 ,Hive 在 0. 13 版 本 才 支 持 IN 操作 ,所 以 以 前 版 本 采用 替代 方 


R: 半 连 接 (Left Semi Join) ,需要 注意 的 是 连接 的 表 不 能 在 查询 的 列 中 ,只 能 出 现在 on F 
句 中 。 


hive> select stuinfo. * from stuinfo left semi join choice on stuinfo.uid=choice.uid; 
Total MapReduce jobs-1 


OK 

1510701 zhangsan 

1510702 lisi 

Time taken: 17.541 seconds, Fetched: 2 row(s) 


6) Map 端 连接 


EIE HeWEeEO 


连接 时 ,如 果 其 中 的 一 张 表 特 别 小 (可 以 放 到 内 存 中 ), 则 可 以 使 用 Map 端 连接 (Map- 
Side Join), Map 端 连 接 是 把 其 中 一 张 表 放 到 每 个 Mapper 任务 的 内 存 中 ,在 Mapper 中 做 
连接 ,而 不 用 Reducer 任务 。Map 端 连 接 不 适合 全 连接 , 右 连 接 , 示 例如 下 : 

hive> select /* *mapjoin (b) * / a.uid,a.name from stuinfo a join choice b on 


a.uid=b.uid; 
Total MapReduce jobs=1 


OK 
1510701 zhangsan 
1510702 lisi 
Time taken: 18.386 seconds, Fetched: 2 row(s) 
7) 子 查 询 
Hive 支持 的 子 查询 是 放 在 FROM 子 句 中 的 ,因为 每 个 表 的 FROM 子 句 必 须要 有 一 个 
别名 ,所 以 子 查询 也 就 有 了 一 个 别名 。 在 子 查询 中 的 SELECT 列表 名 必须 是 唯一 的 ,这 些 
SELECT 列表 名 在 外 层 的 SELECT 查询 中 就 像 表 中 的 列 一 样 是 可 用 的 。 子 查询 可 以 是 含 
有 UNION 的 查询 表达 式 , Hive 支持 任意 层次 的 子 查询 。 
下 面 是 简单 查询 的 例子 : 
SELECT col 
FROM ( 
SELECT a+b AS col 


FROM t1 
) t2 


包含 有 UNION ALL 子 查询 的 例子 : 


SELECT t3.col 
FROM ( 
SELECT a*b AS col 
FROM t1 
UNION ALL 
SELECT c+d AS col 
FROM t2 
) t3 
ABER: PEREN PARARE ER RARR ECCS ER A, 
在 连接 中 NULL 操作 是 有 意义 的 , 即 NULL=NULL 是 有 意义 的 。 例 如 : stuinfo. uid = 
choice. uid— NULL 表示 stuinfo 的 uid 的 字段 值 为 空 ,choice 的 uid 字段 值 为 空 。 


7.4 Hive 复杂 类 型 


Hive 除了 基本 数据 类 型 外 还 支持 复杂 数据 类 型 : Array、Map Struct, 下 面 分 别 了 予以 
介绍 。 

741 Araj (数组 》 

Array 是 Hive 自 带 的 一 个 复杂 数据 类 型 ,与 Java 的 Array 类 型 相似 。 
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— 假设 活动 表 是 : 


hive> CREATE TABLE activity( 
>name STRING, 
> stuid ARRAY<BIGINT> 
>) 
> PARTITIONED BY (dt STRING) 
> RON FORMAT DELIMITED 
> FIELDS TERMINATED BY ',' 
> COLLECTION ITEMS TERMINATED BY '|' 
> STORED AS TEXTFILE; 


这 表示 活动 表 每 个 活动 有 多 个 学 生 参 加 ,name( 活 动 名 ) 和 stuid( 学 号 ) 字 段 之 间 使 用 ', 
隔 开 ,而 stuid 数组 之 间 的 元 素 以 | 隔 开 。 

输出 Hive 表 对 应 的 数据 : 

hadoop@ master:~$printf "%s,%s|%s|%s|%s\n" play cards 15107010 15107011 15107012 15107013> > 


activity.txt 
hadoop@ master:~$printf "%s,%s|%s\n" Table tennis 15107014 15107015» »activity.txt 


显示 activity. txt AF: 


hadoop@ master:-$cat activity.txt 
play cards, 15107010] 15107011] 15107012 | 15107013 
Table tennis, 15107014] 15107015 


加 载 数据 到 Hive 中 的 activity 表 : 


hive > load data local inpath '/home/hadoop/activity. txt ' overwrite into table activity 
partition (dt= '20141030'); 


查询 数据 : 

hive» select name, stuid from activity where dt= '20141030'; 
play cards [15107010, 15107011, 15107012, 15107013] 

Table tennis [15107014, 15107015] 

使 用 下 标 访问 数组 : 

hive» select name, stuid[1] from activity where dt- '20141030'; 
play cards 15107011 

Table tennis 15107015 

查看 数组 长 度 : 


hive> select name, size (stuid) from activity where dt- '20141030'; 
play cards 4 
Table tennis 2 


748 MENU 
假如 有 表 scores , 建 表 的 语句 为 : 


hive» create table scores( 
> stuid BIGINT, 
>name STRING, 
> subject map< STRING, BIGINT> 
2) 
> ROW FORMAT DELIMITED 
> FIELDS TERMINATED BY '," 
> COLLECTION ITEMS TERMINATED BY '|' 
>MAP KEYS TERMINATED BY ':'; 


该 表 表 示 学 生 的 各 科 成 绩 ,每 个 学 生 有 学 号 (stuid) ,姓名 (name), 有 多 个 科目 ,key 是 
科目 名 ,value 是 成 绩 。map 中 的 key 和 value 以 ':' 分 隔 ,map 的 元 素 以 | 分隔。 

输出 Hive 表 对 应 的 数据 : 

Sprintf "%s,%s,%s:%s|%s:%s|%s:%s\n" 15107011 lisi English 94 Math 96 Chinese 89> > score.txt 

Sprintf "%s,%s,%s:%s |%s:%s|%s:%s\n" 15107012 zhangsan Chinese 87 English 94 Math 96> > 

score.txt 

hadoop@ master:~Scat score.txt 


15107011, lisi, English: 94|Math:96|Chinese:89 
15107012, zhangsan, Chinese: 87|English:94|Math:96 


加 载 数据 到 Hive 中 的 scores X 


hive> load data local inpath '/home/hadoop/score.txt' overwrite into table 


Scores; 

查看 数据 : 

hive» select stuid, name, subject from scores; 

15107011 lisi ("English":94, "Math":96, "Chinese":89} 
15107012 zhangsan ("Chinese":87, "English":94, "Math": 96} 
使 用 map: 

hive> select stuid,name,subject['English'] fram scores; 

15107011 lisi 94 


15107012 zhangsan 94 


743 Smet X 
假设 有 student 表 ,其 建 表 语 句 为 ， 


hive»create table student( 
» uid STRING, 
»info struct«hight:int,weight:int» 
2) 
> ROW FORMAT DELIMITED FIELDS TERMINATED BY '," 
> COLLECTION ITEMS TERMINATED BY '|'; 


FIELDS TERMINATED BY ',' 指 定 字段 与 字段 之 间 的 分 隔 符 为 ',', COLLECTION 
ITEMS TERMINATED BY '| 指定 字段 的 各 个 item 的 分 隔 符 为 '|'。 
生成 数据 : 


(0 CHE Hobo ate ae 


Sprintf "$s,$s|$s| Vn" 1510709 185 80 »»student.txt 
Sprintf "$s,$s|$s| Vn" 15107010 187 82 »»student.txt 
Sprintf "ts,%s|%s|\n" 15107011 177 76 >>student.txt 
Sprintf "ts,%s|%s|\n" 15107012 179 78 >>student.txt 
Seat student.txt 

1510709, 1851801 

15107010, 187 |82| 

15107011, 1771761 

15107012, 1791781 


加 载 数据 到 数据 库 中 : 

hive> load data local inpath '/home/hadoop/student.txt' overwrite into table student; 

查看 数据 : 

hive> select * from student; 

OK 

1510709 ("hight":185, "weight":80) 

15107010 {"hight":187, "weight":82} 

15107011 {"hight":177, "weight":76) 

15107012 ("hight":179, "weight":78} 

Time taken: 0.541 seconds, Fetched: 4 row(s) 

tH STRUCT: 

hive» select uid,info.hight,info.weight from student; 

1510709 185 80 

15107010 187 82 

15107011 177 76 

15107012 179 78 

7.5 Hive rake 

751 He 内 置 函数 


Hive 提供 了 大 量 的 操作 符 和 内 置 函数 ,用 户 可 以 直接 使 用 ,这 些 操作 符 和 函数 包括 : 
关系 运算 符 .逻辑 运算 符 、 数 值 运算 符 、 统 计 函 数 、 字 符 串 函数 .条 件 函 数 . 日 期 函数 .聚集 函 
数 和 处 理 XML 和 JSON 的 函数 。 

可 以 在 Hive Shell 中 通过 SHOW FUNCTIONS; 查看 函数 列表 ,通过 DESCRIBE 
FUNCTION « 查看 某 一 函数 的 使 用 帮助 。 例 如 : 


hive> show functions; 
OK 
, 


xpath string 
year 
1 
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Time taken: 0.702 seconds, Fetched: 192 row(s) 
查看 substr 函数 的 帮助 信息 : 


hive> describe function substr; 

OK 

substr(str, pos[, len]) - returns the substring of str that starts at pos and is of length len 
orsubstr(bin, pos[, len]) - returns the slice of byte array that starts at pos and is of length 
len 


因为 篇 幅 原因 在 这 里 就 不 再 一 一 列举 各 函数 及 其 用 法 。 


7528 He 用户 自 定义 函数 


Hive 提供 的 内 置 函数 虽然 比较 多 ,功能 也 比较 强大 ,但 用 户 的 需求 是 多 种 多 样 的 ,有 时 
内 置 函 数 不 能 满足 用 户 需求 时 ,用 户 可 以 自己 开发 自 定义 函 数 以 填补 内 置 函 数 的 不 足 , 自 定 
义 函 数 包括 : 普通 自 定义 函数 (UDF)、 聚 集 自 定义 函数 (UDAF) 和 表 生 成 自 定 义 函 数 
(UDTP), 

1 用 户 自 定义 函数 

用 户 自 定义 函数 (User Defined Function,UDF) 需 要 继承 org. apache. hadoop. hive. ql. 
exec. UDF ,实现 UDF 类 中 的 evaluate 方法 ,方法 支持 重 载 。 

下 面 构造 一 个 自 定义 函数 ADD, 可 以 将 两 个 整数 或 浮 点 数 相 加 ,代码 如 下 : 


package org.myorg; 
import org.apache.hadoop.hive.ql.exec.UDF; 
public class Add extends UDF ( 
public Integer evaluate (Integer a, Integer b)( 
if((a--null)||(b--null))( 
return null; 
) 
return atb; 
) 
public Double evaluate (Double a,Double b) ( 
if((a--null)||(b--null))( 
return null; 
} 
return a+b; 
} 
public Integer evaluate (Integer[] a) { 
int sum-0; 
for (int i=0;i<a.length;i++) { 
if (a[i] !=null) 
sum+=a[i]; 
} 


return sum; 


232; 
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将 该 Java 文件 编译 导出 成 Add. jar. 用 secureFX E f£ 8|. Linux 服务 器 的 /home/ 
hadoop/ 目 录 下 ,用 ADD JAR 命令 将 Add. jar 包 注册 到 Hive 中 : 


hive»add jar Add.jar; 

用 create temporary function 命令 为 自 定义 函数 起 个 别名 : 
hive> create temporary function Add as 'org.myorg.Add'; 

使 用 自 定义 函数 : 


hive» select Add(1,3) from login; 

hive» select Add(1,2,3,4,5,6,7) from login; 

如 果 不 再 需要 某 个 自 定义 函数 ,可 以 使 用 drop temporary function 命令 把 函数 从 hive 
中 注销 掉 。 


hive> drop temporary function Add; 


Ate: 第 一 , helloworld 为 临时 的 函数 ,所 以 每 次 进入 hive 都 需要 add jar 以 及 
create temporary 操作 ;第 二 ,UDF 只 能 实现 一 进 一 出 的 操作 ,如 果 需 要 实现 多 进 一 出 , 则 需 
要 实现 UDAF。 


2 用 户 定义 聚合 函数 

在 使 用 Hive 时 ,系统 自 带 的 聚合 函数 可 能 不 能 满足 用 户 的 要 求 ,这 时 就 需要 自 定义 聚 
合 函 数 。 自 定义 聚合 函数 需要 继承 init O iterate()、terminatePartial()、merge()、terminate() 
五 个 方法 。 其 作用 如 下 : 

(1) init() 方 法 负责 对 中 间 结 果实 现 初始 化 。 

(2) iterate() 方 法 用 于 接收 传人 的 参数 ,并 进行 内 部 的 转换 ,其 返回 值 为 boolean。 

(3) terminatePartial() 方 法 用 于 iterate O 函数 轮转 结束 后 ,返回 轮转 数据 ,类 似 于 
Hadoop 的 Combiner。 

(4) merge() 方 法 用 于 接收 terminatePartial() 方 法 返回 的 数据 ,进行 合并 操作 。 

(5) terminate() 方 法 用 于 返回 最 终 聚 合 结果 。 

下 面 自 定义 一 个 UDAF 函数 ,代码 如 下 : 


package org.myorg; 

import org.apache.hadoop.hive.ql.exec.UDAF; 

import org.apache.hadoop.hive.ql.exec.UDAFEvaluator; 
import org.apache.hadoop.hive.serde2.io.DoubleWritable; 


public class SumUDAF extends UDAF { 
/* 
* 内 部 类 Evaluator 实现 UDAFEvaluator 接口 
*/ 
public static class Evaluator implements UDAFEvaluator ( 
private boolean mEmpty; 
private double mSum; 
public Evaluator() { 


/* 
* init) 负责 对 中 间 结果 实现 初始 化 
* @see org.apache .hadoop.hive.ql.exec.UDAFEvaluator#init () 
*/ 
public void init() ( 
mSum= 0; 
mEmpty= true; 
} 


iterate (DoubleWritable o) 用 于 接收 传人 的 参数 ,并 进行 内 部 的 轮转 。 返 回 值 为 boolean 
@ param o 
G return 


/ 


* ok OK ko 


public boolean iterate (DoubleWritable o) ( 
if (o !=null) { 
mSumt —-o.get () ; 
mEmpty- false; 
} 
return true; 
} 
P4 * 
* terminatePartial () 无 参数 ,用 于 iterate () 函 数 轮转 结束 后 ,返回 轮转 数据 


* @ return 


*/ 
public DoubleWritable terminatePartial() { 
//This is SQL standard - sum of zero items should be null 
return mEmpty ? null: new DoubleWritable (mSum) ; 
} 
/* 
* merge () 函数 接收 terminatePartial () 返 回 的 结果 ,进行 数据 的 合并 操作 ,其 返回 值 为 boolean 
* @param o 
* @ return 
*/ 
public boolean merge (DoubleWritable o) { 
if(o !=null) { 
mSum+=o.get (); 
mEmpty= false; 
} 
return true; 
} 
/* 
* 返回 最 终 的 聚合 结果 
*y 


public DoubleWritable terminate() { 
// 如 果 传 人 参数 是 空 的 则 返回 NULL. 
return mEmpty ? null: new DoubleWritable (mSum) ; 


将 该 Java 文件 编译 导出 成 SumUDAT. jar, JH secureFX 上 传 到 Linux 服务 器 的 / 
home/hadoop/ 目 录 下 ,用 ADD JAR 命令 将 SumUDAF. jar 包 注 册 到 Hive P: 

hive>add jar SumUDAF.jar; 

用 create temporary function 命令 为 H 定义 函数 起 个 别名 E 

hive» create temporary function SumUDAF AS 'org.myorg.SumUDAF'; 

使 用 自 定义 函数 : 

hive> select SumUDAF (subject['English']) from scores; 

使 用 SumUDAF OSRK scores 表 中 Map 类 型 中 English 的 和 。 

hive> drop temporary function SumUDAF; 

使 用 drop temporary function 命令 把 函数 从 Hive 中 注销 掉 。 

从 上 面 可 以 看 出 ,UDAF 开发 需要 注意 以 下 3 点 。 

(1) 需要 import org. apache. hadoop. hive. ql. exec. UDAF 以 及 org. apache. hadoop. 
hive. ql. exec，UDAFEvaluator, 这 两 个 包 都 是 必需 的 。 

(2) 函数 类 需要 继承 UDAF 类 ,使 用 内 部 类 Evaluator 实现 UDAFEvaluator 接口 。 


(3) Evaluator 需要 实现 init() ,iterate()、terminatePartial()、merge()、terminate() 这 
几 个 函数 。 


& 数据 整合 


8.1 大 数据 整合 问题 


传统 的 数据 管理 与 挖掘 系统 大 多 是 建立 在 关系 型 数据 库 之 上 的 ,关系 型 数据 库 技术 发 
展 至 今 , 已 经 相当 地 完善 , 它 能 够 把 数据 有 机 地 组 织 管理 起 来 ,实现 事务 管理 ,迅速 查询 及 清 
晰 完整 的 报表 。 但 是 由 于 关系 型 数据 库 实现 机 制 的 原因 , 它 很 难 表达 复杂 的 关系 ,在 处 理 的 
数据 量 、 系 统 的 容错 性 和 扩展 性 方面 受到 了 一 定 的 限制 。 而 在 这 些 方面 Hadoop 平台 下 的 
一 系列 工具 则 表现 得 比较 好 。MapReduce 模型 把 数据 以 键 值 对 的 方式 表示 出 来 ,方便 了 分 
布 式 计算 ;HDFS 分 布 式 文件 系统 实现 了 海量 数据 的 存储 ;HBase 以 列 存储 的 方式 把 非 结 
构 化 数据 管理 起 来 ;Hive 则 在 Hadoop 平台 的 基础 之 上 实现 了 数据 仓库 的 功能 。 这 一 切 都 
充分 地 证 明了 Hadoop 平台 在 复杂 关系 的 表达 、 容 错 性 和 扩展 性 方面 有 其 独到 之 处 。 但 是 
现 有 的 数据 管理 与 分 析 系 统 大 多 是 建立 在 关系 型 数据 库 基 础 之 上 的 ,数据 的 采集 、 加 工 、 处 
理 都 是 在 关系 数据 库 中 完成 的 ,要 实现 大 数据 的 处 理 分 析 还 需要 把 数据 从 关系 数据 库 转 换 
到 Hadoop 平台 ,在 Hadoop 平 台 上 完成 处 理 与 分 析 , 最 后 把 处 理 的 结果 导出 到 关系 型 数 
据 库 中 ,以 方便 数据 管理 者 和 决策 者 利用 。 所 以 关系 型 数据 库 和 Hadoop 大 数据 平台 将 
来 可 能 会 有 走向 融合 的 趋势 ,关系 型 数据 库 学 习 MapReduce 模型 实现 分 布 式 计算 并 增强 
其 扩展 性 和 容错 性 ;Hadoop 平 台 学 习 关 系 型 数据 库 , 以 增强 其 快速 查询 及 数据 表现 方面 
的 功能 。 

要 实现 关系 型 数据 库 与 Hadoop 平台 数据 的 相互 转换 需要 考虑 和 解决 以 下 问题 。 


1 数据 关系 的 转化 问题 

在 关系 型 数据 库 中 关系 表现 为 表 , 表 中 以 字段 表示 事物 的 属性 ,属性 的 集合 构成 记 
录 一 一 元 组 ,元 组 表示 一 个 个 相互 能 够 区 分 开 的 事物 , 表 中 还 有 一 个 非常 重要 的 事物 一 一 主 
键 , 以 它 来 唯一 地 区 分 元 组 。 事 物 与 事物 之 间 的 关系 通过 表 之 间 的 参照 关系 来 实现 。 
Hadoop 平台 对 关系 的 表达 则 不 那么 严格 ,HBase 通过 一 张 张 列表 来 表现 关系 , 表 中 有 列 
族 , 列 族 之 下 有 列 , 列 则 是 根据 需要 进行 灵活 设置 ;Hive 作为 数据 仓库 很 好 地 支持 了 关系 数 
据 库 的 二 维 表 模 型 。 因 此 ,在 关系 型 数据 库 与 Hadoop 大 数据 平台 之 间 进 行 数据 的 转换 时 
数据 之 间 的 关系 应 该 时 刻 引 起 用 户 的 重视 ,不 能 因为 转换 把 事物 之 间 的 关系 搞 丢 了 ,或 者 是 
搞 错 了 ,更 不 能 无 端 地 生出 许多 关系 。 


2 数据 类 型 的 问题 
经 过 几 十 年 的 发 展 ,关系 型 数据 库 中 有 关系 丰富 的 数据 类 型 ,这 些 数据 类 型 能 够 十 分 准 
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确 地 表示 各 种 事物 ;而 在 Hadoop 平台 中 则 没有 这 么 丰富 的 数据 类 型 ,因此 在 数据 的 转化 过 
程 中 必须 解决 好 数据 类 型 的 映射 问题 。 

3. 导入 导出 效率 的 问题 

在 关系 型 数据 库 与 Hadoop 平台 中 均 存 储 着 海量 数据 ,无 论 是 关系 型 数据 库 转 到 
Hadoop 平台 ,还 是 从 Hadoop 平台 转换 到 关系 型 数据 库 ,效率 问题 都 是 必须 要 考虑 的 问题 ， 
不 能 因为 数据 转换 影响 了 两 个 平台 的 正常 工作 ,把 分 布 式 计 算 带 来 的 效率 优势 给 抵消 了 。 
必须 规划 设计 好 ,把 数据 转换 安排 在 合适 的 时 间 ,采用 合适 的 技术 突显 分 布 式 计算 与 存储 的 
优势 。 

4 Hadoop 平台 数据 存储 格式 的 问题 

Hadoop 平台 对 数据 存储 格式 没有 做 出 特别 的 规定 ,可 以 采用 文本 格式 二进制 格式 、 
压缩 格式 等 ,对 不 同 的 应 用 应 采用 不 同 的 格式 ,所 以 必须 针对 不 同 的 应 用 具体 问题 具体 分 
Tr ,结合 前 面 章节 介绍 过 的 内 容 , 以 最 优化 的 文件 格式 来 存储 数据 。 

此 外 ,在 数据 转换 过 程 中 ,还 要 考虑 Hadoop 平台 内 各 个 工具 之 间 数 据 的 共享 及 协同 处 
理 问 题 。Hadoop 平台 内 的 各 个 工具 所 产生 数据 的 格式 、 结 构 各 不 相同 ,要 共享 比较 困难 。 
因此 ,要 尽 可 能 地 整合 各 数据 ,做 到 互通 有 无 ,而 不 是 老死 不 相 往来 。 另 外 ,在 数据 处 理 分 析 
的 流程 上 也 要 合理 安排 ,将 上 一 流程 的 处 理 结果 作为 下 一 流程 的 输入 ,而 Hadoop 平台 没有 
这 样 的 机 制 把 流程 之 间 衔接 起 来 ,需要 用 户 人 为 地 合理 规划 与 安排 。 


8.2 Sqoop 1.4X 整合 工具 


Sqoop 是 SQL to Hadoop 的 缩写 ,是 一 款 用 来 将 Hadoop 系统 和 结构 化 存储 系统 中 的 
数据 相互 转移 的 工具 ,可 以 将 一 个 关系 型 数据 库 ( 例 如 : MySQL, Oracle, Postgres 等 ) 中 的 
数据 导入 Hadoop 的 HDFS 文件 系统 .HBase fii e Hive 数据 仓库 中 ,也 可 以 进行 反 向 的 
导出 ,如 图 8-1 所 示 。 


一 一 s 
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图 8-1 Sqoop 功能 图 


Sqoop 分 为 1 和 2 两 个 版 本 ,这 两 个 版 本 的 体系 结构 是 完全 不 同 的 ,本 节 先 以 Sqoopl 
为 例 介 绍 它 的 用 法 。Sqoop 是 以 命令 行 的 方式 运行 的 。 请 法 如 下 所 示 : 


$ sqoop COMMAND [ARGS] 
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其 中 ,COMMAND 为 命令 的 名 称 ,ARGS 为 命令 对 应 的 参数 。 命 令 列表 如 表 8-1 所 示 «e fil 
用 过 程 中 ,如 果 遇 到 问题 可 以 使 用 sqoop help 或 sqoop help COMMAND 查看 帮助 信息 。 


表 8-1 Sqoop 命令 列表 


fr 令 5x 能 
codegen 产生 与 数据 库 交互 的 代码 
create-hive-table 将 一 个 数据 表 的 定义 导入 Hive 元 数据 中 
eval 对 一 个 SQL 语句 进行 预 评估 并 显示 执行 结果 
export 导出 一 个 HDFS 文件 夹 到 数据 库 表 
help 列 出 可 用 命令 
import 从 数据 库 中 导入 一 个 表 到 HDFS 中 


import-all-tables 


从 数据 库 中 导入 所 有 的 表 到 HDFS 中 


list-databases 列 出 数据 库 中 可 用 数据 库 
list-tables 列 出 数据 库 中 可 用 表 
version 显示 版 本 信息 

1 下 载 软件 


到 Sqoop 的 官方 网 站 http://sqoop. apache. org/ 选 择 一 个 位 于 国内 的 镜像 网 站 ,这 里 
选择 华中 理工 大 学 镜像 站 地 址 是 : http://mirrors. hust. edu. cn/apache/sqoop/1. 4. 5/ 
sqoop-1. 4. 5. bin hadoop-1. 0. 0. tar. gz. 


2 安装 


把 下 载 的 sqoop-1. 4. 5. bin |. hadoop-1. 0. 0. tar. gz 文件 上 传 到 /home/hadoop 目录 下 ， 


解压 文件 : 


hadoop@ master:~$tar -zxvf sqoop-1.4.5.bin ^ hadoop-1.0.0.tar.gz 
把 解压 的 文件 夹 重 命名 为 Sqoop: 

hadoop@ master:~$mv sqoop-1.4.5.bin  hadoop-1.0.0/ sqoop 

TE X FE / etc/ profile 中 设置 环境 变量 SQOOP. HOME: 


export SQOOP HOME- /home/hadoop/sqoop 


把 MySQL 的 jdbc 驱动 程序 mysql-connector-java-5. 1. 33. jar 复制 到 Sqoop 项 目的 lib 


目录 下 。 


3. 重 命名 配置 文件 


TE $ (SQOOP_HOME)} /conf 中 执行 命令 : 


hadoop@ master:~/sqoop/conf$cp sqoop- env- template.sh sqoop- env.sh 


在 conf 目录 下 ,有 两 个 文件 sqoop-site. xml 和 sqoop-site-template. xml 内 容 是 完全 一 
样 的 ,不 必 在 意 , 只 关心 sqoop-site. xml 即 可 。 
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4 修改 配置 文件 sqoop-envsh 
内 容 如 下 : 


#Set path to where bin/hadoop is available 
export HADOOP COMMON HOME- /home/hadoop/hadoop 


#Set path to where hadoop- * -core.jar is available 
export HADOOP MAPRED HOME- /home/hadoop/hadoop 


#set the path to where bin/hbase is available 
export HBASE HOME- /home/hadoop/hbase 


#Set the path to where bin/hive is available 
export HIVE HOME- /home/hadoop/hive 


#Set the path for where zookeper config dir is 
export ZOOCFGDIR- /home/hadoop/zookeeper 

#Set path to where bin/hadoop is available 
export HADOOP COMMON HOME- /home/hadoop/hadoop 


#Set path to where hadoop- * -core.jar is available 
export HADOOP MAPRED HOME- /home/hadoop/hadoop 


#set the path to where bin/hbase is available 
export HBASE HOME- /home/hadoop/hbase 


#Set the path to where bin/hive is available 
export HIVE HOME- /home/hadoop/hive 


#Set the path for where zookeper config dir is 
export ZOOCFGDIR- /home/hadoop/zookeeper 


5. 执行 Sqoop 命令 列 出 数据 库 基 本 信息 
D 列 出 MySQL 数据 库 中 的 所 有 数据 库 命令 


#sqoop list- databases - - connect jdbc: mysql://localhost: 3306/ - - username root - - 
password 123456 


列 出 了 本 地 MySQL 的 数据 库 : 


hadoop@ master:~/sqoop/bin$ sqoop list- databases - - connect jdbc:mysql://192.168.1.100: 
3306/ - - username root - - password 123456 


列 出 192. 168. 1. 100 服务 器 上 的 数据 库 名 。 
2) 连接 MySQL 并 列 出 数据 库 中 的 表 命 令 


Sqoop list- tables - - connect jdbc:mysql://192.168.1.100:3306/netexam - - username root - - 
password 123456 


命令 中 的 netexam 为 MySQL 数据 库 中 的 netexam 数据 库 名 称 ; username, password 
分 别 为 MySQL 数据 库 的 用 户 名 与 密码 。 
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D 将 关系 型 数据 库 中 的 表 结 构 复 制 到 Hive KP. 


Sqoop create- hive- table - - connect jdbc:mysql://192.168.1.100:3306/netexam - - table score - 

-username root - -password 123456 - -hive- table score 

其 中 ,--table score 为 MySQL 中 的 数据 库 netexam 中 的 表 ,--hive-table test 为 Hive 中 
新 建 的 表 名 称 。 

AFE: 只 是 复制 表 的 结构 , 表 中 的 内 容 没 有 复制 。 

2) 将 数据 从 关系 数据 库 中 的 表 导 入 文件 到 Hive 表 中 


hadoop@ master:~$sqoop import -- connect jdbc:mysql://192.168.1.100:3306/netexam - - username 
root - -password 123456 - - table answer - -hive- import - -hive- table answer -m 2 - - fields- 
terminated- by "\0001"; 


参数 说 明 : 

—m 2 表示 由 两 个 map 作业 执行 。 

--fields-terminated-by "\0001" 表 示 需 同 创建 Hive 表 时 保持 一 致 。 
3) 将 Hive 中 的 表 数 据 导入 MySQL 数据 库 表 中 


Sqoop export - - connect jdbc:mysql://192.168.1.100:3306/netexam - - username root - - password 


123456 --table login ip - - export- dir /user/hive/warehouse/login ip/000000 0 - - input- 
fields- terminated- by '\0001' 


ATE: 

(1) 在 进行 导入 之 前 ,MySQL P 45 login ip 必须 已 经 提前 创建 好 了 。 

(2) jdbc:mysql://192. 168. 20. 118:3306/test 中 的 IP 地 址 改 成 localhost 会 报 异 常 。 
4) 将 数据 从 关系 数据 库 导 和 Hive 表 中 ,使 用 --query 语句 


Sqoop import - - append - - connect jdbc:mysql://192.168.1.100:3306/netexam - - username root - 

- password 123456 - - query "select testId, A, B from test where \SCONDITIONS" -m1 --target 

-dir /user/hive/warehouse/test - - fields- terminated- by ","; 

ATE: --target-dir/user/hive/warehouse/test 为 Hive 中 保存 数据 的 目录 ,导入 前 
必须 存在 ,否则 会 出 错 。 

D 将 数据 从 关系 数据 库 导 入 文件 到 Hive 表 中 ,使 用 --columns、--where 语句 

Sqoop import - - append - - connect jdbc:mysql://192.168.1.100:3306/netexam - - username root - 

-P -- table knowledge - - columns "Id, knowId, knowContent, subId" - - where "subid= 3" - - hive- 

import - -hive- table knowledge -m 1 -- fields- terminated- by ","; 

在 这 个 例子 中 ,一 where 后 面 的 参数 可 以 构造 得 更 复杂 一 些 。 

AFT: 这 里 连接 MySQL 数据 库 的 密码 用 了 --P, 此 参数 在 命令 执行 时 提示 用 户 在 
console 界面 输入 密码 ,而 通过 一 password 123456 方式 输入 的 密码 可 以 被 其 他 用 户 用 Linux 
的 ps 命令 看 到 ,因此 建议 用 --P 方式 更 安全 。 

7 从 MySQL 导入 HBase 
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sqoop import --connect jdbc:mysql://192.168.1.100/netexam - - username root -- password 123456 

—-table test - -hbase- table test - - hbase- create- table - - hbase- row- key testId - - colum- 

family test 

8. 从 MySQL 导入 HDFS 

Sqoop import - - connect jdbc:mysql://192.168.1.100/netexam - - username root - - password 

123456 - - table answer 

默认 设置 下 导入 hdfs 上 的 路 径 是 : /user/username/tablename/ (files) ,比如 当前 用 户 
是 hadoop ,那么 实际 路 径 即 : /user/hadoop/answer /(files) 。 

如 果 要 自 定义 路 径 需 要 增加 参数 : —warehouse-dir, EC All : 


Sqoop import - - connect jdbc:mysql://192.168.1.100/netexam - - username root - - password 
123456 - - table testtype - - warehouse- dir /user/hadoop/sqoop 


上 述 语句 则 把 testtype 表 转 换 到 了 HDFS HY /user/hadoop/sqoop/testtype 目录 下 。 
8.3 Sqoop2 整合 工具 


Sqoop2 目前 最 新 版 本 是 1. 99. 3,Sqoop2 分 客户 端 (client) 和 服务 器 端 (server) , server 
安装 在 hadoop 集群 中 的 某 个 节点 上 ,这 个 节点 充当 要 连接 Sqoop 的 入 口 节点 ,在 这 个 节点 
上 的 Sqoop 服务 器 作为 mapreduce 的 client, 所 以 Hadoop 必须 和 Sqoop 服务 器 端 装 在 一 
起 。 客 户 端 则 不 限 , 也 不 需要 安装 ,这 种 设计 让 导数 据 更 灵活 。 原 1. AX 版 则 没有 区 分 服务 
器 端 和 客户 端 。Sqoop2 是 全 新 设计 的 ,还 没有 安全 实现 Sqoop] 的 功能 , 暂 不 支持 从 数据 库 
到 Hive 转换 的 功能 ,这 里 仅 以 从 MySQL 表 到 HDFS 为 例 加 以 说 明 。 

Sqoop2 下 载 地 址 : http://mirrors. hust. edu. cn/apache/sqoop/1. 99. 3/。 


l 服务 器 端 安装 

1) 采用 上 传 工具 把 Sqoopl. 99. 3 上 传 到 服务 器 ,并 解压 缩 
hadoop@ master:~$tar zxvf sqoop-1.99.3-bin- hadoop100.tar.gz 
2) 把 文件 夹 改名 为 sqoop 

hadoop@ master:~$mv sqoop- 1.99.3-bin- hadoop100/ sqoop 

3) 在 /etc/profile 文件 中 加 入 以 下 几 句 


export SQOOP HOME- /home/hadoop/sqoop 

export CATALINA HOME- $SQOOP HOME/server 

export LOGDIR-$SQOOP HOME/logs 

export PATH= $HIVE_HOME/bin:SQOOP_HOME/bin:$PATH 

hadoop@ master: ~ $ source /etc/profile 使 配置 文件 生效 。 

4) f£ iit $ SQOOP_HOME/server/conf/ F ff] sqoop. properties 文件 
改 倒 数 第 6 行为 Hadoop 配置 文件 夹 : 


hadoop@ master:- /sqoop/server/conf$sudo nano sqoop.properties 
org. apache. sqoop. submission. engine. mapreduce. configuration. directory = /home/hadoop/ 


hadoop/conf/ rr 


5) 修改 catalina. properties 
配置 hadoop AY jar A: 


hadoop@ master:~/sqoop/server/conf$sudo nano catalina.properties 

common. loader = ${ catalina. base}/lib, ${catalina. base}/lib/* . jar, ${catalina. home }/lib, 
${catalina. home }/lib/* . jar, $(catalina. home}/../lib/* . jar, /home/hadoop/hadoop/ * . jar,/ 
home/hadoop/lib/* .jar 


6) 把 MySQL 数据 库 的 连接 包 复 制 到 $ SQOOP_HOME/server/lib 目录 下 
7) 启动 Sqoop server 


Sqoop.sh server start 
停止 Sqoop 使 用 : 
hadoop@ master:~/sqoop/bin$ ./sqoop.sh server stop 


2. Sqoop 客户 端 
客户 端 无 须 配 置 , 只 需 将 下 载 版 本 解压 即 可 。 
1) 进入 客户 端 


hadoop@ master:-/sqoop/bin$./sqoop.sh client 
Sqoop home directory: /home/hadoop/sqoop 
Nov 03, 2014 3:00:51 PM java.util.prefs.FileSystemPreferences$1 run 
INFO: Created user preferences directory 
Sqoop Shell: Type 'help' or '\h' for help 
Sqoop:000» 


2) 为 客户 端 配置 服务 器 


Sqoop:000» set server -host 192.168.1.10 --port 12000 - -webapp sqoop 
Server is set successfully 


3) 查看 版 本 信息 


sqoop:000> show version -- all 

client version: 
Sqoop 1.99.3 revision 2404393160301df16a94716a3034e31b03e27b0b 
Compiled by mengweid on Fri Oct 18 14:51:11 EDT 2013 

server version: 
Sqoop 1.99.3 revision 2404393160301df16a294716a3034e31b03e27b0b 
Compiled by mengweid on Fri Oct 18 14:51:11 EDT 2013 

Protocol version: 


ul 
4) 查看 连接 器 


Sqoop:000» show connector --all 
1 connector (s) to show: 
Connector with id 1: 


Name: generic- jdbc- connector 
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wed Class: org.apache.sqoop.connector.jdbc.GenericJdbcConnector 
Version: 1.99.3 


5) SA MySQL 数据 
CD 创建 数据 库 连 接 


Sqoop:000» create connection -- cid 1 
Creating connection for connector with id 1 
Please fill following values to create new connection object 


Name: mysql 
Connection configuration 


JDBC Driver Class: com.mysql.jdbc.Driver 

JDBC Connection String: jdbc:mysq1://192.168.1.100:3306/netexam 
Username: root 

Password: «oo 

JDBC Connection Properties: 

There are currently 0 values in the map: 


entry# -- 回 车 
Security related configuration options 


Max connections: 500 
New connection was successfully created with validation status FINE and persistent id 1 
Sqoop:000» 


(2) 创建 job 


sqoop:000> show job - -all 

0 job(s) to show: 

Sqoop:000» create job - -xid 1 -- type import 
Creating job for connection with id 1 

Please fill following values to create new job object 


Name: mysqlimport ~~ A 
Database configuration 


Schema name: 

Table name: paperuser -- 输 入 
Table SQL statement: 

Table column names: 

Partition column name: 

Nulls in partition column: 
Boundary query: 


Output configuration 


Storage type: 
0: HDFS 


Choose: 0 =-- 输 入 
Output format: 


0: 
1: 


TEXT FILE 
SEQUENCE FILE 


Choose: 1 -- 输 入 
Compression format: 


umwwmbh 


: NONE 
: DEFAULT 


: LZ24 
T: 


SNAPPY 


Choose: 1 -- 输 入 
Output directory: /user/hadoop/paperuser -- 输 入 


Throttling resources 


Extractors: 

Loaders: 

New job was successfully created with validation status FINE and persistent id 1 
Sqoop: 000» 

(3) 显示 任务 

Sqoop:000» show job 

R----R------------- 4-------- £----------- 4--------- * 
| Id| Name | Type | Connector | Enabled | 

4R----4R------------- 4R-------- 4----------- 4--------- * 
11 | mysqlimport | IMPORT | 1 | true | 

+----+------------- +-------- +----------- +--------- + 
(4) 执行 任务 


Sqoop:000» start job -- jid 1 
Submission details 
Job ID: 1 
Server URL: http://192.168.1.10:12000/sqoop/ 
Created by: hadoop 
Creation date: 2014- 11- 03 22:08:40 CST 
Lastly updated by: hadoop 
External ID: job 201411032013 0001 


http://master:50030/jobdetails.jsp? jobid- job 201411032013 0001 


2014-11-03 22:08:40 CST: BOOTING -Progress is not available 
C5) 查看 作业 状态 


Sqoop:000» status job -- jid 1 
Submission details 
Job ID: 1 
Server URL: http://192.168.1.10:12000/sqoop/ 
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wed Created by: hadoop 


(6) 查看 输出 目录 : 


Sqoop:000» exit 

hadoop@ master:~/sqoop/binShadoop fs -1s /user/hadoop 
drwxr-xr-x  -hadoop supergroup 0 2014-11-03 22:15 /user/hadoop/answer 
drwxr-xr-x  -hadoop supergroup 0 2014- 09-23 14:17 /user/hadoop/archiveDir 


do 典型 应 用 案例 介绍 


大 数据 处 理 分 析 技术 是 近 段 时 间 和 炙手可热 的 技术 之 一 , 它 在 许多 领域 都 有 应 用 ,并 且 取 
得 了 可 喜 效 果 , 这 些 应 用 主要 集中 于 以 下 领域 : 数据 量 巨 大 ,很 难 用 单 台 计 算 机 在 可 接受 
时 间 内 完成 计算 任务 ,这 时 把 任务 布置 到 计算 机 集群 ,实现 海量 数据 的 存储 ,并 行 分 布 式 地 
处 理 数据 ,以 快速 完成 任务 ; 加 计算 量 巨大 ,计算 任务 之 间 是 独立 的 ,一 旦 可 以 被 分 割 时 ,使 
用 大 数据 处 理 技术 也 能 够 迅速 地 完成 计算 任务 。 本 章 将 介绍 基于 Hadoop 计算 框架 进行 大 
数据 处 理 的 应 用 案例 ,以 帮助 读者 理解 Hadoop 原理 ,快速 掌握 解决 实际 问题 的 能 力 。 


9.1 大 数据 在 智能 交通 中 的 应 用 


随 着 国民 经 济 的 发 展 ,城镇 化 进程 的 加 快 . 人 民生 活水 平 的 提高 ,机 动车 保有 量 急剧 增 
加 ,而 城市 中 各 种 交通 资源 的 供给 却 不 能 无 限制 地 增长 ,使 得 交通 资源 的 供给 与 需求 之 间 的 
矛盾 日 益 突出 。 各 种 城市 病 的 症状 日 益 严重 一 一 停车 难 、 交 通 拥堵 、 环 境 污 染 严 重 、 交 通 事 
故 频 发 ,这 些 因素 严重 影响 着 人 民 群 众生 活水 平 的 提高 及 幸福 指数 的 提升 ,也 阻碍 了 社会 经 
济 的 发 展 。 


91.1 交通 运输 业 面临 的 挑战 


交通 运输 业 的 发 展 不 仅 出 现 了 上 文 所 述 的 状况 ,而且 其 管理 系统 中 也 面临 着 前 所 未 有 
的 挑战 。 

(1) 交通 运输 业 不 能 适应 数据 快速 增长 的 发 展 形势 。 交 通 运输 业 的 数据 来 源 丰 富 、 类 
型 多 样 ,并 且 时 刻 产 生 新 的 数据 。 铁 路 公路、 航空 公交 等 客运 企业 的 顾客 信息 ,每 年 产生 
数 百 亿 条 出 行 记录 ;行业 运输 企业 产生 的 营运 数据 ,如 快递 企业 运输 的 快件 的 数据 ;各 种 传 
感 器 产生 的 动态 数据 ,如 : 在 卡 口 处 有 感应 线圈 、 红 外 线 检测 ,微波 检测 、 超 声波 检测 、 激 光 
检测 ,视频 检测 等 定点 传感器 ,也 有 GPS 定位 、 手 机 定位 等 移动 设备 采集 的 数据 。 一 个 城市 
每 年 因 交 通 运输 业 产 生 的 数据 量 已 经 跨 过 TB 级 ,从 PB 级 向 EB 级 过 渡 。 这 就 要 求 必须 有 
一 个 能 够 存储 如 此 海量 数据 的 存储 场所 和 设备 ,并 且 这 个 设备 要 具有 容错 性 和 稳定 性 。 

(2) 传统 数据 处 理 系统 正面 临 着 低 效 甚至 失效 的 问题 。 交 通 运输 业 信 息 化 经 过 十 几 年 
的 发 展 已 经 具有 了 一 定 的 基础 和 规模 ,但 是 交通 信息 系统 对 新 业务 的 产生 ,数据 的 快速 增 
长 ,数据 处 理 的 复杂 性 没有 足够 的 预见 ,采用 传统 数据 处 理 技术 的 交通 数据 管理 系统 已 不 能 
适应 数据 的 快速 增长 ,造成 系统 运行 效率 低下 ,其 至 部 分 业务 系统 在 处 理 大 数据 时 出 现 崩 
溃 、 失 效 的 现象 。 近 些 年 来 ,在 一 些 地 方 进行 新 项 目 建设 和 旧 系 统 改造 的 过 程 中 ,依然 没 考 
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设 运行 过 程 中 又 是 重建 设 、 轻 运 维 , 不 对 数据 进行 更 深 价值 的 挖掘 ,使 信息 管理 系统 沦 为 了 
“ 打 证 系统 ”和 "发文 系统”, 随 着 领导 干部 的 变更 ,系统 的 生命 周期 也 随 之 缩短 。 

(3) 现行 管理 系统 出 现 了 功能 单一 、 缺 乏 整合 .技术 落后 的 问题 。 交 通 运 输 行 业 的 管理 
体制 存在 “条 块 分 割 ?现象 ,在 交通 运输 行业 建设 过 程 中 ,信息 化 项 目的 同 质 化 问题 严重 , 同 
时 ,不 同 地 区 信息 化 发 展 不 均衡 ,数据 采集 范围 不 同 ,深度 不 同 ,缺乏 统一 标准 ,不 能 进行 整 
合 。 部 分 行政 主管 部 门 对 项 目 只 重审 批 , 缺 乏 监 管 和 评估 。 现 行 系统 的 数据 大 多 散落 在 行 
业 基 层 企业 ,部 分 主管 部 门 只 是 按 固定 时 间 段 收集 统计 报表 和 台 账 ,并 没有 实现 系统 对 接 ， 
数据 同步 ,主管 部 门 无 法 及 时 、 准 确 地 掌握 行业 生产 的 数据 。 

大 数据 技术 的 出 现 对 解决 和 缓解 以 上 问题 提供 了 一 条 胃 新 的 技术 途径 。 大 数据 技术 应 
用 于 交通 管理 行业 具有 以 下 优势 。 

1. 应 用 大 数据 技术 ,交通 管理 系统 能 够 处 理 复杂 多 样 的 海量 数据 

大 数据 的 处 理 必须 解决 三 个 问题 , 即 数 据 的 存储 、 分 析 和 管理 问题 。 以 Hadoop 生态 系 
统 为 平台 的 大 数据 系统 天 生 就 具有 处 理 海 量 数据 的 能 力 , HDFS 分 布 式 文件 系统 以 
Master/Slave 形式 ,启动 NameNode 和 DataNode 进程 ,在 NameNode 运行 的 节点 存储 着 文 
件 的 元 数据 ,在 DataNode 运行 的 节点 上 分 布 式 多 副本 地 存储 着 具体 的 数据 。 当 数据 的 副 
本 数 低 于 复制 因子 或 文件 的 某 个 Block 被 损坏 时 ,系统 就 会 启动 修复 机 制 ,把 副本 数 低 于 复 
制 因子 的 Block 复制 到 新 的 节点 上 ,这 样 保证 了 数据 的 安全 。Hadoop 生态 系统 下 的 HBase 
数据 库 能 够 存储 百 万 行 以 上 的 大 表 , 由 于 它 是 面向 列 的 ,因此 不 同 于 关系 型 数据 库 , 非 常 适 
合 于 存储 半 结 构 化 或 非 结 构 化 数据 。 在 数据 分 析 上 ,Hadoop 生态 系统 采用 了 分 布 式 并 行 
计算 的 模式 (MapReduce 模式 ) ,并 且 采 用 了 移动 计算 ,对 大 数据 来 说 ,移动 计算 要 比 移动 数 
据 更 经 济 .更 合算 。Hive 作为 一 个 数据 仓库 ,能 够 把 大 数据 保存 到 HDFS 中 , 它 的 HQL 请 
句 被 翻译 成 MapReduce 任务 分 布 到 系统 的 各 节点 上 执行 ,这 样 既 实现 了 大 数据 的 存储 管 
理 ,又 实现 了 高 速 并 行 分 析 。 在 数据 的 管理 上 ,Hadoop 生态 系统 中 有 两 个 工具 非常 适合 进 
行 数据 的 整合 。 一 个 是 Sqoop, 它 适合 于 将 Oracle; MySQL. 等 关系 型 数据 库 中 的 结构 化 数 
据 整合 到 Hadoop 系统 中 , 既 可 以 转换 为 HDFS 中 的 文件 ,也 可 以 转换 为 Hive 中 的 数据 表 
或 者 HBase 中 的 数据 表 , 计 算 完 成 的 数据 通过 Sqoop 转换 到 外 部 的 关系 型 数据 库 中 。 另 一 
个 是 以 Flume 为 代表 的 日 志 收集 工具 。Flume 是 一 个 高 可 用 的 、 高 可 靠 的 ,分 布 式 的 海量 
HERE EG AE i ASE. Flume 支持 在 日 志 系 统 中 定制 各 类 数据 发 送 方 ,用 于 收集 数 
据 , 同 时 ,Flume 提供 对 数据 进行 简单 处 理 , 并 写 到 各 种 数据 接收 方 ( 可 定制 ) 的 能 力 。 这 样 
做 到 了 对 关注 数据 的 聚合 与 整理 。 


2 应 用 大 数据 技术 可 以 提高 交通 运输 的 运行 效率 

交通 运输 网 涉及 方方面面 的 工作 ,处 理 的 数据 量 非常 巨大 ,应 用 的 控制 模型 较 多 ,系统 
的 采集 传输 、 处 理 设备 数量 非常 巨大 。 如 果 某 个 环节 发 生 一 点 意外 ,整个 系统 将 进入 低 效 
运行 状态 ,影响 整个 运输 网 络 的 运行 效率 。 使 用 大 数据 技术 后 的 交通 运输 网 能 够 实时 动态 
地 处 理 交 通 运输 数据 ,及 时 发 现 意 外 情况 ,自动 做 出 处 理 或 上 报请 求 管理 人 员 做 出 决策 。 大 
数据 具有 很 好 的 预测 能 力 ,能 够 降低 对 交通 事件 误 报 和 漏 报 的 概率 ,实时 监控 交通 的 动态 特 
征 。 交 通 诱导 是 智能 交通 系统 的 重要 组 成 部 分 ,通过 发 布 诱导 信息 ,为 出 行者 指示 下 游 道路 
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的 交通 状况 ,让 出 行者 选择 合适 的 行驶 道路 ,调节 交通 流 的 分 配 , 改 善 城市 的 交通 状况 。 因 
此 在 提高 交通 运输 的 效率 、 提 高 路 网 的 通行 能 力 、 调 控 交通 的 需求 等 方面 大 数据 技术 较 之 传 
统 的 方法 有 着 质 的 飞跃 。 

3. 应 用 大 数据 技术 可 以 提高 交通 的 安全 水 平 

大 数据 技术 的 实时 处 理 能 力 可 以 准确 地 探查 到 交通 事故 的 发 生 , 它 的 预测 能 力 能 够 有 
效 地 预报 交通 事件 的 发 生 。 结 合 微波 雷达 检测 系统 、 视 频 监控 系统 、 浮 动车 检测 系统 ,可 以 
构建 有 效 的 安全 模型 ,提高 车 辆 行驶 的 安全 性 。 当 安全 事件 发 生 , 需 要 应 急救 援 时 ,大 数据 
技术 以 其 综合 处 理 与 决策 能 力 ,快速 反应 能 力 , 可 以 大 幅度 提高 应 急救 援 能 力 ,减少 交通 事 
故 的 伤亡 和 财产 的 损失 。 


Ne ”智能 交通 大 数据 平台 的 架构 


智能 交通 大 数据 平台 是 多 个 系统 ,模型 .部门 和 技术 的 结合 ,可 以 说 , 它 是 一 个 集 系统 科 
学 ,管理 科学 、 数 学 ,经 济 学 ,行为 科学 以 及 信息 技术 的 综合 大 系统 。 从 体系 结构 上 ,平台 
括 基 础 业务 层 、 数 据 分 析 层 和 信息 发 布 层 ,如 图 9-1 所 示 。 
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图 9-1 智能 交通 大 数据 平台 的 架构 
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基础 业务 层 是 数据 分 析 层 和 信息 发 布 层 的 基础 , 它 的 主要 功能 是 完成 各 业务 部 门 的 基 
础 性 工作 ,生产 基础 业务 数据 。 基 础 业务 层 包括 交通 流 采集 系统 、 信 号 控制 系统 、 视 频 监控 
系统 、 违 章 取 证 系统 、122 接 处 警 系统 .GPS 车 辆 定位 跟踪 系统 、 交 通 诱导 系统 、 机 动车 车 辆 
信息 管理 系统 、 驾 驶 员 信 息 管理 系统 、PGIS 系统 等 。 基 础 业务 层 中 的 各 项 服务 是 业务 部 门 
开展 工作 的 基础 ,数据 的 保存 和 处 理 至 关 重 要 ,因此 在 基础 业务 层 可 以 采用 云 计算 技术 ,把 
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分 散 的 系统 整合 到 云 中 ,这 样 既 保证 了 应 用 系统 的 安全 稳定 ,也 提供 了 高 效 的 计算 性 能 。 基 
础 业务 层 的 数据 来 源 于 数据 采集 系统 ,主要 包括 视频 监控 系统 、 环 形 线圈 检测 系统 、 微 波 检 
i Ac RFID 检测 系统 、 客 运 售 票 系统 、 公 交 运 输 系统 等 。 

数据 分 析 层 采用 大 数据 技术 ,根据 路 网 信息 、 公 众 出 行 需求 数据 综合 分 析 的 需求 ,对 业 
务 系统 采集 的 数据 ,采用 数据 挖掘 技术 ,结合 各 种 数学 模型 进行 实时 有 效 的 分 析 , 随 时 掌握 
交通 系统 的 运行 状况 ,如 道路 拥塞 程度 ,平均 车 速 , 饱 和 度 、 占 用 率 、 中 断 率 等 ,并 以 此 为 依 
据 , 进 一 步 做 出 拥堵 预警 交通 诱导 等 智能 交通 行为 。 数 据 分 析 层 是 构建 在 Hadoop 生态 系 
统 下 的 ,以 商用 廉价 服务 器 为 硬件 平台 ,以 开源 的 Linux 为 操作 系统 ,以 HDFS 文件 系统 作 
为 大 数据 文件 存储 的 基础 ,以 MapReduce 作为 并 行 计 算 的 模型 ,以 HBase 作为 数据 处 理 的 
数据 库 , 以 Hive 作为 数据 仓库 ,以 Sqoop 和 Flume 作为 数据 整合 的 工具 。 

信息 发 布 层 是 依据 数据 分 析 层 的 分 析 结果 ,通过 互联 网 .移动 终端 ,桌面 应 用 、 报 表 向 公 
众 . 业 务 部 门 . 行 业 管理 人 员 等 发 布 交通 运行 情况 ,方便 他 们 的 出 行 与 业务 决策 ,信息 发 布 层 
要 求 界面 友好 ,易于 操作 ,功能 接口 丰富 。 发 布 信息 包括 交通 状况 .交通 预警 .辅助 决策 的 数 
据 图 表 等 ,发 布 的 渠道 随 着 时 代 的 发 展 而 变 得 多 样 化 ,由 过 去 的 交通 广播 ,信息 告示 牌 等 发 
展 到 现在 的 交通 广播 ,移动 电视 、 微 博 、 微 信 、 告 示 牌 等 多 种 形式 与 渠道 。 


913 数据 分 析 层 的 数据 基础 分 析 


智能 交通 系统 (ITS) 与 传统 交通 控制 系统 的 区 别 就 在 于 其 具有 智能 特性 ,并 能 根据 交 
通 运行 状况 进行 智能 管控 。Hadoop 生态 系统 在 处 理 交 通 大 数据 上 具有 天 生 的 优势 。 智 能 
交通 系统 的 数据 来 源 多 样 ,类 型 复杂 ,数据 量 庞大 ,传统 的 关系 数据 库 是 不 能 胜任 的 。 城 市 
各 卡 口 的 视频 监控 系统 采集 了 高 清 的 交通 视频 数据 以 及 车 辆 信息 ,包括 车 牌 信息 、 车 辆 类 
型 .车 辆 颜色 .通过 时 间 、 车 速 , 卡 口 编号 .车 道 编号 ,行驶 方向 等 ; GPS 定位 跟踪 系统 产生 的 
数据 包括 车 辆 编号 ,时间 .运行 坐标 等 ; 物 联 网 也 产生 了 类 似 的 数据 。 根 据 这 些 基础 业务 数 
据 , 智 能 交通 系统 可 以 计算 得 到 反映 交通 状况 的 基础 数据 ,比如 : 卡 口 的 交通 流量 ,平均 车 
速 、 拥 塞 程度 等 。 


1 卡 口 交通 流量 的 计算 

智能 交通 系统 每 过 5 分 钟 、10 分 钟 .15 分 钟 或 者 其 他 周期 时 间 统 计 全 市 各 卡 口 的 交通 
流量 ,并 将 统计 完成 的 数据 推送 给 信息 发 布 层 , 以 直观 图 表 的 形式 供出 行 群众 ,决策 者 .主管 
业务 人 员 参 考 。Hadoop 采用 MapReduce 模型 进行 并 行 统计 分 析 是 最 快捷 的 方式 ,而 统计 
卡 口 交通 流量 涉及 从 HBase 数据 库 获 取 的 卡 口号 (kakoulD) 方向 (DirectionID)、 通 过 时 间 
(passtime) 三 个 维度 的 因素 ,MapReduce 模式 下 map 函数 的 key {Hy CkakouID. DirectionID) . 
value 值 为 passtime。 

map 函数 在 车 辆 通过 卡 口 的 时 间 晚 于 统计 开始 时 间 , 并 且 早 于 统计 结束 时 间 时 ,输出 
的 中 间 结 果 即 键 值 对 : 


<key, one> 


reduce 函数 会 进行 分 组 统计 ,得 到 介 于 统计 起 始 时 间 与 结束 时 间 内 的 某 一 卡 口 、 某 一 
方向 上 的 车 流量 的 总 和 。reduce 函数 的 输出 结果 是 : 


<key,count> 
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这 里 的 map 函数 只 是 进行 分 组 关键 词 的 切 分 ,reduce 函数 把 相同 分 组 的 计数 值 求 和 ， 
代码 如 下 : 


public static class CountMap extends 
private final static IntWritable one=new IntWritable (1); 
Mapper«LongWritable, Text, Text, IntWritable> { 
// 实 现 map 函数 
public void map (LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
Long passtime- Long.prase (value.toString()); 
if ((passtime>starttime) && (passtime« endtime)) 
context.write (key, one); 
// 输 出 <key，one> 键 值 对 ,key 值 为 kakouID, DirectionID 


) 


public static class CountReduce extends 
Reducer< Text, IntWritable, Text, IntWritable» { 
// 实 现 reduce 函数 
public void reduce (Text key, Iterable< IntWritable» values, 
Context context) throws IOException, InterruptedException ( 
long count- 0; 
Iterator< IntWritable> iterator- values.iterator(); 
while (iterator.hasNext()) ( 
count+ ; // 统 计 车 流量 
) 


context.write (key, new IntWritable (count) ); 


) 


2 路 段 平均 车 速 的 计算 
路 段 平 均 车 速 是 衡量 路 段 通行 效率 的 一 个 重要 指标 ,一般 来 说 ,平均 车 速 越 快 路 段 的 通 
行 效率 越 高 。 平 均 车 速 的 计算 不 能 用 某 时 间 点 一 个 测量 点 测速 雷达 的 测量 值 来 代表 ,因为 


它 只 能 代表 某 个 点 ,而 不 能 代表 整个 路 段 ,这 里 ,以 相 邻 卡 口 测 得 同一 车 辆 通过 卡 口 的 时 间 
差 作 为 所 用 时 间 ,两 卡 口 之 间 的 距离 为 路 程 , 某 时 间 段 内 平均 车 速 的 计算 可 用 下 面 的 公式 来 
dom: 


式 中 ,* 为 相 邻 卡 口 之 间 的 距离 ,这 个 值 可 以 在 卡 口 设置 时 测 得 。t.w 为 车 辆 驶 出 路 段 的 
时 间 。tswn 为 车 辆 驶 入 路 段 的 时 间 。 注 意 ,这 里 的 tw 和 twn 必 须 为 同一 车 辆 在 上 游 卡 口 和 
下 游 卡 口 都 能 测 得 到 的 才 是 有 效 数据 ,对 中 途 驶 离 路 段 或 中 途 驶 入 路 段 的 车 辆 不 作为 统 
计 值 。 

MapReduce 模式 下 ,为 了 简化 编程 ,这 里 使 用 两 轮 MapReduce 过 程 进行 计算 。 第 一 轮 
MapReduce 计算 时 ,map 函数 的 主要 功能 是 从 HBase 库 中 查询 某 段 时 间 车 辆 通过 卡 口 的 信 
息 ,包括 号 牌 和 通过 时 间 。map 函数 以 卡 口 号 (kakouID)、 方 向 代码 (DirectionID)、 号 牌 
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一 (Cplate_num) 为 键 ,通过 卡 口 时 间 为 值 的 键 值 对 作为 中 间 值 输出 。 
«plate num, time» 
reduce 函数 求 出 某 一 车 辆 在 上 下 游 卡 口 之 间 的 时 间 差 。 


public static class AvgSpeedMap extends 
Mapper< LongWritable, Text, Text, IntWritable> { 
public void map (LongWritable key, Text value, Context context) 

throws IOException, InterruptedException { 
Long passtime- Long.prase (value.toString()); 
context.write (key, passtime); 

// 输 出 <key, passtime» BE ff , key f J} kakouID,DirectionID,plate num 

} 


public static class AvgSpeedReduce extends 

Reducer< Text, IntWritable, Text, IntWritable» ( 

// 实 现 reduce 函数 

public void reduce (Text key, Iterable< IntWritable» values, 

Context context) throws IOException, InterruptedException ( 

long count- 0; 
long sumtime- 0; 
Iterator« IntWritable> iterator- values.iterator(); 


if (iterator.next ().length- - 2) ( 
long passtimel- iterator[0].get (); 
long passtime2= iterator[1].get(); 
abstime- abs (passtimel - passtime2); 
context.write (key, new IntWritable (count)); 


) 


通过 第 一 轮 MapReduce 的 计算 ,得 到 某 辆 车 经 过 该 路 段 所 用 时 间 。 

第 二 轮 MapReduce 计算 时 ,map 函数 以 kakouID, DirectionID 为 键 值 ,以 第 一 轮 reduce 
函数 输出 的 abstime 为 value 值 , 在 第 二 轮 的 reduce 函数 中 求 出 所 有 路 段 行车 时 间 的 和 , 求 
出 平均 速度 。 


public static class AvgSpeedMap extends 
Mapper«LongWritable, Text, Text, IntWritable> { 
public void map (LongWritable key, Text value, Context context) 
throws IOException, InterruptedException { 
Long abstime- Long.prase (value.toString()); 
context.write (key, abstime); 
// 输 出 <key, passtime> 键 值 对 ,key 值 为 kakouID, DirectionID 


public static class AvgSpeedReduce extends 
Reducer< Text, IntWritable, Text, IntWritable> { 


// 实 现 reduce 函数 
public void reduce (Text key, Iterable< IntWritable>values, 
Context context) throws IOException, InterruptedException { 
long count- 0; 
long sumtime- 0; 
for (Long val: values) { 
sum+=val.get (); 
count+ +; 
) 
avgspeed- (count * distent) /sum; 
context.write (key, avgspeed); 
} 


} 


3. 查询 指定 卡 口 是 否 有 指定 号 牌 的 车 辆 通过 
在 交通 管理 和 公安 办 案 过 程 中 ,经 常会 有 这 样 的 查询 : 查询 在 某 一 指定 卡 口 是 否 有 某 
特定 号 牌 的 车 辆 通过 ? 通过 的 时 间 是 多 少 ? 若 该 车 辆 出 现 过 ,那么 它 的 行驶 轨迹 又 是 怎样 
的 呢 ? 对 第 一 个 问题 比较 好 解决 ,可 以 直接 对 存储 于 HBase 数据 库 中 的 数据 进行 查询 。 为 
了 提高 查询 速度 ,可 以 对 plate num, passtime 列 建 立 索 引 , 把 符合 条 件 的 记录 分 页 输出 。 
下 面 以 过 滤器 查询 为 例 加 以 说 明 。 
public List<Result> selectByFilter (String tablename,List« String» arr) throws IOException{ 
HTable table- new HTable (hbaseConfig, tablename); 
FilterList filterList- new FilterList(); 
Scan sl=new Scan ()7 
for (String v:arr) ( // 各 个 条 件 之 间 是 “与 ”的 关系 
String [] s-v.split(","); 
filterList.addFilter (new SingleColumnValueFilter (Bytes .toBytes (s[0]) , 
Bytes.toBytes (s[1]), 
CompareOp.EQUAL, Bytes.toBytes (s[2]) 


) 7 
sl.setFilter (filterList) ; 
ResultScanner ResultScannerFilterList=table.getScanner (s1); 
return ResultScannerFilterList 


} 

在 查询 时 ,传递 的 参数 是 卡 口 (kakouID) 号 牌 (plate_num) , 若 返回 的 结果 集 为 非 空 , 即 
说 明 该 号 牌 车 辆 在 某 一 特定 时 间 从 该 卡 口 通行 过 。 若 返回 的 结果 集 为 空 , 说 明 该 车 辆 未 从 
该 卡 口 通行 过 。 

4 查询 某 号 牌 车 辆 的 行驶 轨迹 

查询 某 号 牌 车 辆 在 特定 时 间 段 内 的 行驶 轨迹 在 公安 侦查 工作 中 具有 重要 的 作用 ,在 智 
能 交通 系统 投入 使 用 前 这 项 工作 需要 投入 大 量 的 人 力 ,夜以继日 地 翻 看 各 处 的 视频 监控 录 
像 , 人 工 查找 可 疑 车 辆 ,然后 人 工 绘制 出 该 车 辆 的 行驶 轨迹 。 智 能 交通 系统 在 大 数据 技术 的 
支持 下 ,可 以 非常 高 效 地 解决 此 类 问题 。 城 市 各 处 卡 口 实时 地 抓拍 并 自动 识别 每 一 通过 卡 
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口 车 辆 的 号 牌 , 存 人 HBase 数据 库 中 ,HBase 对 号 牌 和 通过 时 间 建 立案 引 , 查 询 时 ,输入 号 
牌 和 起 止 时 间 , 系 统 返回 的 是 已 经 按时 间 排 好 序 的 数据 集 , 据 此 绘制 车 轨迹 就 非常 快捷 ,可 
以 达到 秒 级 。 下 面 是 查询 模块 的 部 分 代码 , 仅 供 参考 。 


HTable table=new HTable (conf, "jtgl"); // 创 建 一 个 HTable 的 实例 

Scan s- new Scan () 7 

s.addColumn P -toBytes ("kakou"), Bytes.toBytes ("kalouID")); 

// 添 加 列 族 address 中 的 province Fi 

s.addColumn (Bytes.toBytes ("kakou"), Bytes.toBytes ("plate num ")); 

// 添 加 列 族 address 中 的 city Fl 

s.addColumn (Bytes.toBytes ("kakou"), Bytes.toBytes ("passtime")); 

s.setStartRow(Bytes.toBytes(starttime)); ”// 指 定 开始 的 行 

s.setStopRow (Bytes.toBytes (endtime)); // 指 定 结束 的 行 (不 含 此 行 ) 

ResultScanner rs- table.getScanner (s); 

return rs; 

5 套 牌 车 的 查 控 

套 牌 车 俗称 克隆 车 ,是 指 参 照 真 牌 车 的 型 号 和 颜色 ,将 号 码 相同 的 假 牌 套 在 同样 型 号 和 
颜色 的 车 上 ,甚至 伪造 行驶 证 等 手续 上 路 行驶 的 车 辆 。 由 于 现在 机 动车 号 牌 管理 不 规范 E 
牌 行为 有 越 演 越 烈 的 趋势 ,从 套用 民 牌 发 展 到 套用 专用 号 牌 、 军 牌 、 警 牌 ;从 改装 、 拼 装 车 套 
牌 发 展 到 报废 车 、 盗 抢 车 套 牌 ,再 到 用 欺骗 .贿赂 手段 重新 取得 机 动车 号 牌 均 有 发 生 。 

套 牌 车 辆 的 危害 是 显而易见 的 。 套 牌 车 扰乱 了 公安 机 关 对 公共 安全 的 管控 ,制造 社会 
不 稳定 因素 ; 套 牌 车 因 营 运 成 本 低 ,直接 促使 了 运输 市 场 的 恶性 竞争 ,使 有 序 的 运输 秩序 变 
得 杂乱 无 章 ; 套 牌 车 是 非法 营运 ,不 会 主动 缴纳 国家 各 种 税 费 ,从 而 造成 了 国家 税 费 的 大 量 
流失 ,同时 还 会 出 现 骗 保 等 损害 保险 公司 利益 的 现象 ;合法 车 辆 在 被 别 的 车 辆 套 牌 后 ,在 车 
辆 交通 违法 事故 处 理 等 方面 , 真 车 主 往往 要 充当 “冤大头 ”, 给 真 车 主 带 来 不 必要 的 麻烦 和 
不 必要 的 经 济 损失 , 真 车 主 也 是 苦 不 堪 言 。 

DAE ,主管 部 门 对 套 牌 车 辆 的 人 工 查处 完全 依靠 个 人 经 验 。 一 摸 : 一 般 套 牌 车 辆 的 号 
牌 较 粗 糙 , 能 明显 区 分 出 来 ;二 问 : 套 牌 车 主 一 般 对 正常 领证 程序 说 不 清 ,存在 明显 的 疑点 ; 
三 查 : 查询 车 辆 信息 库 和 驾驶 人 员 信 息 库 ,可 以 帮助 查处 套 牌 车 辆 。 

大 数据 技术 应 用 于 智能 交通 系统 后 ,可 以 从 完全 不 同 于 传统 方法 的 角度 对 套 牌 车 辆 加 
以 查处 。 原 理 是 这 样 的 : 智能 交通 系统 查询 每 一 辆 车 的 通行 信息 ,并 计算 不 同 卡 口 的 通行 
时 间 差 , 若 时 间 差 小 于 特定 时 间 ( 如 5 分 钟 ,甚至 2 分 钟 ) ,在 特定 时 间 内 同一 辆 车 是 不 可 能 
出 现在 不 同 地 点 的 ,那么 这 个 号 牌 就 存在 套 牌 的 重大 嫌疑 。MapReduce 模式 下 ,map 函数 
功能 较 简 单 .生成 二 plate_num,kakouID 十 passtime 二 的 中 间 值 .这 里 就 不 介绍 其 代码 ,下 面 
给 出 reduce 函数 的 部 分 代码 , 仅 供 参 考 。 


public static class SamePlateReduce extends 
Reducer< Text, IntWritable, Text, IntWritable» { 
//S: ll reduce 函数 
public void reduce (Text key, Iterable< IntWritable» values, 
Context context) throws IOException, InterruptedException { 


for (Long vall: values) { 


第 9 章 ABSERSAHO 


passtimel=vall.get (); 
for (Long val2:values) { 
passtime2=val2.get (); 
if (abs (passtimel- passtime2) < 300) && (kakouID1< » KakouID2) { 
context .write (key, kakouID1+ ","+KakouID2) ; 
) 


} 


reduce 函数 接收 到 的 中 间 值 为 二 plate_num，kakouID 十 "," 十 passtime 二 ,plate_num 
为 键 ,kakouID 十 "," 十 passtime 为 值 ,然后 在 两 层 循环 内 查找 通过 时 间 差 小 于 特定 时 间 并 
且 卡 口号 不 同 的 数据 ,因为 特定 时 间 段 内 车 辆 经 过 卡 口 的 机 会 不 是 很 多 ,所 以 Reduce 处 理 
的 数据 量 不 会 很 大 ,效率 会 非常 高 。 


9.2 大 数据 在 情报 分 析 中 的 应 用 


随 着 公安 战线 信息 化 水 平 的 逐步 提高 ,“ 情 报 主导 警 务 ” 的 理念 已 经 形成 ,无 论 社会 治安 
管理 ,刑事 案件 侦查 、 反 恐 维稳 、 禁 赌 禁毒 .国内 安全 保卫 ,还 是 警 情 分 析 、 决 策 指挥 等 都 需要 
各 方面 的 情报 。 什 么 是 情报 呢 ? 情报 是 指 通过 安插 在 被 侦查 对 象 中 的 线 人 获取 的 “内 幕 ? 信 
息 吗 ? 或 者 是 指 通过 特殊 技术 手段 获得 的 “秘密 ”信息 吗 ? 这 里 所 研究 的 情报 ,并 非 狭义 上 
的 情报 ,而 是 指 广义 上 的 情报 ,是 指 通过 公开 渠道 获取 的 未 经 分 析 评 估 的 原始 信息 ,经 过 分 
析 、 评 估 后 ,能 够 供 领导 、 专 案 指 挥 者 一 线 民警 参考 决策 的 分 析 结 论 。 随 着 公安 信息 化 的 普 
及 与 “金盾 工程 ”逐步 深入 地 开展 ,全 国 各 地 公安 机 关 积 累 了 大 量 的 公共 数据 ,其 中 包括 公安 
机 关 业 务 部 门 收 集 管理 的 内 部 业务 数据 ,包括 常住 人 口 信息 、 暂 住人 口 信息 ,旅店 住宿 信息 、 
网 吧 上 网 人 员 信 息 、 违 法 犯罪 人 员 信 息 、 机 动车 信息 、 机 动车 驾驶 人 员 信 息 、 涉 毒 人 员 信 息 、 
在 逃 人 员 信 息 等 ,这 些 数据 来 源 广 泛 ,结构 复杂 ,数据 量 庞 大 , 且 这 些 数 据 只 有 业务 部 门 的 公 
安 人 员 才 能 使 用 。 这 些 信息 是 公安 机 关 多 年 来 开展 业务 工作 积累 下 来 的 业务 数据 ,但 是 由 
于 缺乏 科学 合理 的 规划 ,形成 了 多 个 信息 孤岛 ,由 于 没有 统一 的 数据 模型 ,加 之 评比 政绩 等 
多 种 原因 造成 公安 业务 系统 重复 建设 ,数据 重复 录入 ,部 门 之 间 不 能 共享 ,数据 的 利用 率 不 
高 ,实战 效能 较 差 等 问题 。 

随 着 “金盾 工程 "建设 的 逐步 深入 ,在 充分 利用 以 往 业 务 系统 成 果 的 基础 上 ,各 地 建设 了 
公安 情报 研判 系统 ,为 多 个 业务 信息 系统 建立 了 统一 的 数据 模型 ,实现 了 公安 信息 的 共享 ， 
消除 了 信息 孤岛 ,实现 了 多 源 数据 的 自动 化 或 半自动 化 的 情报 研判 工作 ,使 公安 机 关 情 报 研 
判 更 加 准确 及 时 , 极 大 地 提高 了 公安 情报 分 析 工 作 的 效率 。 

例如 : 上 海 市 公安 局 在 2000 年 成 立 了 专门 的 情报 部 门 ,倡导 * 情 报 指导 ?“ 情 报 投资 ” 
“情报 共享 “情报 研判 ”的 理念 ,实行 大 采集 、 大 流通 、 大 平台 、 大 情报 的 情报 工作 方式 。 南 
京 市 公安 局 也 提出 了 “情报 指导 警 务 ” 的 战略 体系 。2013 年 11 月 ,济南 市 公安 局 和 浪潮 集 
团 合 作 , 启 用 了 全 国 首 个 大 规模 的 “公安 云 计算 中 心 ”, 该 中 心 以 “公安 内 网 、Internet 互联 
网 ,图像 专 网 .安全 接 入 网 ”四 网 为 基础 ,以 存储 平台 、 网 络 平台 、 安 全 平台 、 应 用 平台 管理 平 
人 台 五 平台 为 依托 ,以 指挥 .刑侦 、 治 安 、 户 政 等 各 公安 业务 应 用 为 重点 ,在 提升 警 务 效能 、 转 变 
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警 务 模式 等 方面 发 挥 了 重要 作用 。 香 港 警 务 部 门 建立 了 情报 信息 中 心 , 用 大 数据 的 分 析 来 
弥补 传统 线 人 卧底 获取 情报 的 不 足 , 有 效 地 提高 了 案件 侦破 率 和 社会 治安 管理 水 平 。 


Ser :公安 情报 分 析 的 现状 


随 着 社会 经 济 和 国际 形势 的 发 展 变化 ,各 类 案件 呈现 出 多 发 态势 ,如 暴力 恐怖 案件 、. 黑 
社会 有 组 织 犯罪 ,流窜 作案 ,高 科技 犯罪 日 益 增多 ,这 给 案件 的 侦破 工作 带 来 了 新 的 挑战 。 
如 何 从 广度 上 扩大 情报 的 收集 范围 ,从 深度 上 挖掘 情报 的 关联 性 ,建立 起 一 套 大 情报 主导 下 
的 新 型 警 务 运 行 模式 ,提高 警方 精确 管理 ,精确 指挥 .精确 打击 、 精 确 防 控 的 能 力 ,已 经 成 为 
世界 各 国 努 力 研究 和 发 展 的 方向 。 

总 体 来 说 现行 的 公安 情报 分 析 工 作 存在 以 下 几 个 方面 的 问题 : 首先 是 需要 扩大 情报 收 
集 研判 的 范围 。 由 于 信息 技术 以 及 人 们 对 情报 认识 深度 的 限制 ,传统 情报 研判 系统 的 数据 
来 源 较为 狭 窗 , 分 析 的 广度 较 小 。 传 统 的 情报 研判 系统 多 采用 关系 型 数据 仓库 技术 把 多 个 
业务 系统 的 数据 整合 到 一 起 ,但 只 是 部 分 地 解决 了 数据 的 整合 关联、 挖掘 问题 ,并 没有 真正 
解决 海量 异 构 数 据 的 存储 与 并 行 计 算 问 题 。 

其 次 是 需要 对 各 种 数据 进行 深度 挖掘 。 在 传统 业务 信息 系统 建设 和 使 用 过 程 中 ,为 了 
尽 可 能 地 收集 各 类 数据 ,管理 部 门 给 基层 单位 下 达 了 各 类 指标 ,基层 单位 往 业 务 系统 中 录入 
了 大 量 重 复 甚 至 错误 的 数据 ,这 一 方面 增加 了 业务 系统 运行 的 负担 ,同时 也 降低 了 情报 分 析 
的 准确 性 ,在 公安 情报 分 析 工 作 中 ,对 各 种 数据 的 深度 挖掘 蝇 待 进行 。 

最 后 是 需要 加 强 对 各 种 情报 的 广度 分 析 。 传 统 业务 信息 系统 对 各 种 情报 的 广度 分 析 还 
不 尽 如 人 意 ,迫切 需要 加 强 这 方面 的 工作 ,美国 在 此 方面 曾 有 过 成 功 的 案例 ,可 供 借鉴 。 
2006 年 ,美国 把 过 去 20 多 年 内 的 犯罪 记录 与 交通 事故 记录 映射 到 一 张 地 图 上 ,结果 发 现 交 
通 事故 的 高 发 地 段 也 是 犯罪 活动 的 高 发 地 段 , 在 时 间 段 上 也 有 惊人 的 相似 之 处 。 美 国 国家 
高 速 公路 安全 管理 局 和 国家 司法 部 门 联合 执法 后 ,交通 事故 和 犯罪 率 双双 下 降 。 


See 大 数据 情报 分 析 系 统 架 构 


大 数据 情报 分 析 系 统 是 一 个 庞大 复杂 的 系统 ,涉及 计算 机 硬件 网络、 操作 系统 ,关系 型 
数据 库 、 云 计算 技术 、 大 数据 等 多 方面 的 知识 与 技术 ,要 把 它们 整合 到 一 起 形成 一 个 高 效 科 
学 、 具 有 实际 应 用 价值 的 系统 ,在 系统 分 析 、 设 计 、 部 署 . 运 维和 应 用 中 会 非常 复杂 。 为 了 简 
化 系统 ,必须 使 用 分 层 的 思想 把 系统 简单 化 。 每 一 层 有 其 独立 的 功能 ,上 层 模 块 调用 下 层 模 
块 的 功能 .下层 模 块 为 上 层 模 块 提供 服务 ,上 下 层 之 间 通 过 接口 进行 交互 。 大 数据 情报 分 析 
系统 从 下 至 上 分 为 资源 层 、 整 合 层 、 服 务 支 持 层 交互 层 。 

资源 层 为 整个 系统 提供 基础 资源 ,包括 硬件 资源 、 网 络 资源 数据库 等 各 种 软件 资源 、 存 
储 资源 、 计 算 资 源 、 数 据 资源 等 ,数据 资源 是 非常 重要 的 部 分 , 它 是 系统 进行 加 工分 析 的 “ 食 
材 ”, 要 制作 一 餐 色香 味 俱 佳 的 “大 餐 ”, 没 有 它们 可 不 行 。 数 据 资源 包括 公安 基础 和 业务 数 
据 、 政 府 机 关 和 社会 机 构 拥有 的 公共 数据 、 商 业 企 业 运 营 过 程 中 积淀 下 来 的 非 涉 密 商 业 数 
据 、 公 共 传 媒 报道 的 新 闻 数 据 、 区 域 性 跳蚤 市 场 网 站 数据 等 。 

整合 层 负 责 把 各 类 数据 整合 到 数据 仓库 中 。 情 报 分 析 需 要 掌握 各 种 数据 资源 ,而 处 理 
这 些 数据 的 系统 各 不 相同 ,数据 的 结构 非常 复杂 ,描述 事物 的 粒度 粗细 不 同 。 要 分 析 这 些 数 
据 , 必 须 把 它们 整合 到 一 个 独立 的 数据 仓库 中 ,而 不 能 直接 在 原 业 务 系统 上 读 取 分 析 。 整 合 
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层 要 完成 的 任务 是 周期 性 地 把 各 类 数据 整合 到 数据 仓库 中 来 ,形成 以 人 、 事 、 物 、 地 、 组 织 等 
形式 存储 的 信息 资源 整合 库 ,为 上 层 的 分 析 挖 掘 提供 数据 基础 。 

服务 支持 层 是 情报 分 析 系 统 的 核心 层 ,使 用 大 数据 数据 挖掘 机 器 学 习 等 技术 为 上 层 
提供 通用 服务 与 支持 ,其 中 包括 : 系统 采用 Hadoop 的 分 布 式 文件 系统 HDFS 存储 各 种 海 
量 结构 化 或 非 结 构 化 数据 的 存储 服务 ;采用 MapReduce 框架 实现 并 行 分 布 式 计算 的 计算 服 
务 ; 对 数据 进行 分 类 排序 .关联 分 析 、 归 类 分 析 、 统 计 分 析 等 数据 挖掘 服务 。 

交互 层 负责 人 机 交互 ,结合 公安 实战 需求 ,为 公安 情报 分 析 中 的 分 类 排序 .关联 分 析 1H 
类 分 析 、 统 计 分 析 提 供 输入 输出 。 


923 数据 的 整合 


情报 分 析 系 统 涉 及 公安 基础 和 业务 系统 提供 的 各 种 公共 安全 数据 。 一 类 是 身份 类 信 
A ,包括 常住 人 口 户籍 信息 、 暂 住人 口 信息 .前科 人 员 信 息 、 吸 毒 人 员 信息 、 交 通 违 章 记 录 信 
息 , 驾 驶 员 信 息 、 出 入 境 人 员 信 息 、 网 络 虚拟 身份 信息 、 机 动车 信息 等 。 还 有 一 类 是 轨迹 类 信 
息 , 包 括 铁 路 旅客 信息 、 民 航 旅客 信息 .航运 旅客 信息 、 网 吧 上 网 人 员 信 息 、 旅 店 业 旅客 信息 、 
车 辆 行驶 轨迹 信息 等 。 这 些 信息 是 公安 情报 的 重要 来 源 , 单 一 的 信息 源 往往 是 信息 孤岛 ,只 
有 把 它们 联系 起 来 才 有 情报 的 价值 ,这 个 信息 的 联系 过 程 被 称 为 数据 整合 。 数 据 整合 的 方 
式 有 两 种 : 第 一 种 方式 是 在 各 业务 系统 中 为 情报 分 析 系统 提供 一 个 调用 接口 ,情报 分 析 系 
统 直 接 在 原 业务 系统 中 进行 查询 分 析 。 这 种 方式 的 优点 是 不 需要 对 原 数据 进行 转换 ,不 需 
要 额外 的 存储 空间 和 计算 能 力 , 但 这 种 方式 对 原 业 务 系统 影响 非常 大 ,甚至 可 能 造成 服务 的 
中 断 。 第 二 种 方式 是 把 数据 从 原 业务 系统 中 抽取 出 来 ,转换 成 情报 分 析 系 统 的 格式 。 这 种 
方式 对 原 业务 系统 几乎 没有 影响 ,但 涉及 数据 格式 的 转换 ,数据 描述 粒度 的 粗细 等 技术 
细节 。 

公安 情报 分 析 系统 的 数据 来 源 , 目 前 来 说 主要 为 各 业务 系统 数据 库 中 的 结构 化 数据 ,这 
类 数据 可 以 使 用 Sqoop 等 转换 工具 ,把 数据 从 原 数据 库 转 换 到 Hive 数据 仓库 或 HBase 数 
据 库 中 ,也 可 以 针对 特定 应 用 下 的 数据 自己 开发 转换 工具 ,这 种 转换 方式 能 实现 特定 功能 ， 
研发 人 员 需 要 熟练 掌握 底层 实现 技术 。 情 报 分 析 系 统 的 远 期 数据 可 以 来 源 于 Web 网 页 , 论 
坛 贴吧 、 即 时 通信 工具 、 快 递 物流 、 电 子 商 务 等 行业 的 半 结 构 化 或 非 结构 化 数据 ,可 以 使 用 
Flume 等 整合 工具 对 非 结构 化 数据 进行 整合 。 

数据 整合 策略 主要 有 以 下 两 个 方面 。 


1 批量 追加 方式 整合 

原 业务 系统 数据 结构 复杂 ,数据 量 随 着 业务 的 发 展 也 在 不 断 地 增加 ,如 : 旅店 住宿 信 
息 、 网 吧 上 网 人 员 信 息 、 机 动车 信息 、 驾 驶 人 员 信 息 等 都 在 不 断 地 增加 更 新 中 ,要 把 这 类 数据 
整合 到 情报 分 析 系 统 中 来 ,可 以 采用 条 件 分 批 整合 的 策略 。 如 : 旅店 住宿 信息 可 以 采用 以 
一 个 月 .两 周 或 一 周 等 周期 进行 整合 ,Sqoop 转换 语句 如 下 列 代码 所 示 : 

Sqoop import -- append - -connect jdbc:mysql://192.168.1.100:3306/zhusudb - - username root — 

-password 123456 - - query "select ID, Name,Gender,Room ID,days,start date,end date,reg date 


from tab zhusu where reg date«- $s date and reg date» - $e date" - -target- dir /user/hive/ 
warehouse/zhusudb - - fields- terminated- by ","; 


该 语句 将 数据 从 住宿 人 员 数 据 库 zhusudb 导入 Hive 表 zhusudb 中 ,这 里 的 变量 $s_ 
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date I $ e date 为 旅客 到 旅店 登记 的 开始 时 间 与 结束 时 间 , 以 此 为 时 间 段 ,把 数据 追加 到 
Hive 数据 仓库 中 。 


2 把握 适 度 的 整合 粒度 

原 业务 系统 中 ,为 了 业务 管理 的 需要 记录 了 详细 的 业务 信息 ,而 这 些 信息 对 情报 分 析 系 
统 来 说 不 一 定 是 必需 的 。 比 如 : 把 网 吧 上 网 人 员 信 息 整合 到 情报 分 析 系 统 时 ,就 应 该 考虑 
整合 信息 的 粒度 问题 ,网 吧 管理 系统 中 记录 了 上 网 人 员 的 身份 证 号 、. 姓 名 、 上 网 开始 时 间 、 上 
网 结束 时 间 、 使 用 的 机 器 号 、IP 等 概要 信息 ,网 吧 管 理 的 服务 器 中 还 记录 了 该 用 户 浏览 网 页 
的 URL 地 址 ,所 玩 游戏 的 信息 、 即 时 通信 工具 的 信息 等 详细 信息 。 进 行 信息 整合 时 ,应 根 
据 需 要 考虑 信息 资源 的 粒度 问题 ,如 果 仅 查 询 分 析 某 人 何 时 于 何 处 上 过 网 , 则 考虑 采用 粗 粒 
度 的 方式 整合 数据 ,而 如 果 要 详细 地 了 解 某 人 在 网 吧 上 网 的 细节 , 则 可 以 采用 细 粒 度 的 整合 
方式 ,把 一 些 详细 信息 也 整合 到 情报 系统 中 来 。 

在 Sqoop 数据 转换 时 ,可 以 使 用 -columns、--where 语句 对 要 转换 的 数据 进行 限定 ,从 
而 进行 粒度 的 控制 。 如 下 例 所 示 : 


Sqoop import - - append - - connect jdbc:mysql://192.168.1.200:3306/netinfor - - username root 
--P --table information -~ columns "Id, name, machine id, start date, end date, IP" -- 
where "start date»-$s date and end date» -$e date" --hive- import - - hive- table netinfor 

- - fields- terminated- by ","; 


uea 情报 分 析 的 方法 


把 各 业务 系统 中 的 数据 整合 到 情报 分 析 系 统 中 后 , 即 可 对 其 进行 挖掘 分 析 , 最 常见 
的 挖掘 方式 就 是 关联 分 析 ,把 数据 仓库 中 孤立 的 信息 通过 它们 共有 的 特点 将 它们 关联 起 
来 ,从 而 发 现 一 些 有 价值 的 线索 ,达到 串 并 同类 案件 .获取 案犯 踪迹 、 缩 小 侦查 范围 .提供 
侦查 方向 ,直至 抓获 犯罪 嫌疑 人 破获 案件 。 关 联 的 类 型 一 般 包括 直接 关联 、 间 接 关 联 、 文 
本 关联 。 


1 直接 关联 分 析 

直接 关联 分 析 是 指 通过 信息 之 间 的 相同 属性 ,如 身份 证 号 .手机 号 码 、 银 行 账号 .地 址 
等 ,把 两 个 或 两 个 以 上 的 原本 孤立 的 信息 直接 关联 起 来 。 比 如 办 案 过 程 中 ,获得 犯罪 嫌疑 人 
的 部 分 身份 信息 ,在 全 国 常住 人 口 数据 库 查询 其 基本 信息 : 姓名 、 身 份 证 号 .出 生日 期 ,家庭 
住址 ,然后 用 身份 证 号 到 其 他 库 中 进行 直接 关联 。 

D 查 前 科 劣 迹 

查 明 嫌 疑 人 基本 信息 后 ,以 其 基本 信息 为 条 件 , 把 多 个 数据 表 进 行 连接 查询 ,连接 的 条 
件 是 身份 证 号 ,涉及 的 信息 表 有 : 前 科 人 员 信息 表 、 在 逃 人 员 信息 表 、 吸 毒 人 员 信息 表 、 交 通 
违章 记录 信息 表 。 搞 清 其 是 否 有 前 科 劣迹 ,为 提高 查询 效果 扩大 信息 范围 提供 了 支持 。 这 
种 关联 方法 在 Hive 数据 仓库 中 实现 较为 简单 ,使 用 子 查询 和 连接 查询 即 可 实现 。 

2) 查 活动 轨迹 

对 犯罪 嫌疑 人 ,如 果 其 有 流窜 作案 的 习惯 ,可 以 利用 暂 住 人 员 信息 表 、 旅 店 住宿 信息 表 、 
网 吧 上 网 人 员 信息 表 .洗浴 住宿 人 员 信 息 表 等 直接 进行 查询 ,整合 铁路 .航空 ,航运 、 公 路 信 
息 后 ,利用 身份 证 号 直接 查询 ,可 以 获得 嫌疑 人 的 活动 轨迹 。 如 果 嫌 疑 人 有 车 辆 ,根据 身份 
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证 号 ,利用 驾驶 人 员 信息 表 和 车 辆 信息 表 查 询 其 拥有 的 车 辆 信息 一 一 车 辆 号 牌 ,然后 再 利用 
城市 视频 监控 系统 ,根据 号 牌 查询 其 活动 轨迹 。 

3) 电话 号 码 关 联 分 析 

现代 社会 电话 是 人 们 之 间 联 系 的 主要 通信 工具 ,电信 部 门 登记 客户 信息 时 ,会 记录 客户 
的 姓名 、 家 庭 住址 .电话 号 码 等 ;在 许多 场所 都 预 留 有 电话 号 码 , 包 括 手机 号 码 ,固定 电话 号 
码 传真 号 码 等 ,通过 电话 号 码 的 关联 ,可 以 查询 到 用 户 姓名 ,家 庭 住址 .身份 证 号 .通话 详 单 
等 ,这 些 信息 组 成 一 张 关系 网 ,通过 一 点 能 关联 到 与 其 有 联系 的 其 他 关系 人 。 

4) 随身 物品 的 关联 分 析 

犯罪 嫌疑 人 随身 携带 的 物品 也 可 以 扩大 情报 的 范围 ,对 嫌疑 人 的 随身 物品 在 损失 物品 
库 中 进行 查询 检索 , 搞 清 该 随身 物品 与 某 案件 的 关系 。 比 如 嫌疑 人 驾驶 一 辆 汽车 ,根据 汽车 
的 大 架 号 和 发 动机 号 到 盗 抢 车 辆 数据 库 进行 查询 ,可 以 为 认定 犯罪 嫌疑 人 提供 依据 。 


2 间接 关联 

表面 上 看 , 某 一 信息 与 另 一 信息 之 间 没 有 直接 的 关系 ,但 是 它们 之 间 有 可 能 通过 某 种 隐 
藏 的 线索 联系 着 ,如 果 找 到 这 种 隐藏 的 线索 ,就 能 扩大 情报 范围 ,从 而 把 不 相关 的 两 个 信息 
联系 起 来 ,为 侦破 案件 提供 有 价值 的 情报 。 间 接 关联 的 方式 主要 有 : 旅行 工具 中 的 同 乘 ite 
店 住宿 中 的 同 住 户籍 信 息 中 的 同 户 信息 .出 和 人 境 人 员 信 息 中 的 关系 人 信息 、 微 博 中 的 共 粉 
等 ,这 些 线索 能 为 间接 关联 情报 提供 很 大 的 帮助 。 

比如 : 数据 仓库 的 同 乘 查询 中 ,查询 的 条 件 是 : 出 行 日 期 .出 发 地 .目的 地 相同 ,座位 相 
邻 , 订 票 单 号 相连 等 。 旅 店 住宿 的 同 住 查询 中 ,查询 的 条 件 是 : 相同 日 期 内 住 在 同一 房间 的 
人 ,或 者 住宿 登记 中 同时 登记 且 住 在 相 邻 房间 的 人 ,或 者 住宿 结算 时 ,同时 结算 且 住 在 相 邻 
房间 的 人 。 

根据 以 上 分 析 , 案 件数 据 经 整合 后 形成 数据 仓库 ,要 从 数据 仓库 中 查询 出 满意 的 情报 ， 
最 常用 的 查询 方法 就 是 连接 查询 和 子 查 询 。 通 过 连接 查询 把 两 个 库 中 具有 相同 属性 的 两 个 
案件 查询 出 来 , 子 查询 方法 中 子 查询 的 结果 是 另 一 个 查询 的 条 件 , 通 过 连接 查询 和 子 查询 实 
现 案 件 的 关联 ,也 实现 了 案件 的 碰撞 和 发 掘 。 


ues 基于 文本 的 串 并 案件 聚 类 分 析 


随 着 交通 运输 业 的 发 展 及 社会 流动 性 的 增加 ,违法 犯罪 正 呈 现 出 流窜 化 .团伙 化 、 职 业 
化 等 特点 ,犯罪 嫌疑 人 经 常 流窜 于 各 地 纠结 多 人 实施 犯罪 。 这 类 系列 案件 因 是 同一 个 人 或 
同一 做 人 所 为 ,因此 案件 中 存在 着 相同 的 特征 和 规律 。 如 果 把 这 些 案 件 进行 串 并 侦查 将 会 
使 侦查 工作 取得 意 想不到 的 效果 。 

当 案 件 侦 查 陷 入 困境 时 ,侦查 员 经 常会 把 与 该 案件 具有 相同 特征 或 属性 的 案件 进行 合 
并 侦查 ,以 期 找 出 案件 之 间 的 联系 ,扩大 案件 侦查 的 线索 来 源 , 加 速 案 件 的 侦破 。 串 并 案件 
的 侦查 常 到 案件 数据 库 中 进行 碰撞 搜索 ,寻找 具有 相同 对 象 或 属性 信息 的 案件 ,将 它们 串 并 
在 一 起 。 而 整合 后 的 案件 数据 库 中 存在 数 百 万 条 数据 记录 ,经 过 串 并 查询 以 后 ,往往 仍然 存 
在 着 数 千 条 记录 ,要 从 这 些 数 据 中 找 出 串 并 案件 ,会 花费 侦查 员 大 量 的 时 间 与 精力 ,这 种 方 
式 不 但 琐碎 ,而且 效率 低下 。 串 并 案件 的 分 析 就 是 用 数据 挖掘 中 的 聚 类 算法 对 案件 信息 进 
行 聚 类 分 析 , 从 而 找到 串 并 案件 ,为 案件 的 侦破 找到 新 的 线索 。 

韩 宁 在 (基于 聚 类 分 析 的 串 并 案 研究 ?一 文中 提出 采用 FCM 算法 (Fuzzy K-means 算 
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法 ,也 称 模糊 均值 C 算法 ) 对 案件 信息 进行 了 分 析 , 并 以 681 个 案件 记录 为 样本 进行 了 实 
验 ,这 种 分 析 方 法 在 低 维度 单机 环境 下 是 可 行 的 。 而 在 高 维度 大 数据 条 件 下 ,FCM 算法 就 
不 可 能 在 可 接受 的 时 间 范 围 内 计算 出 聚 类 结果 。 因 此 ,我 们 这 里 提出 ,在 Hadoop 平台 上 配 
合 使 用 Canopy 聚 类 算法 与 FCM 聚 类 算法 进行 案件 的 串 并 分 析 , 可 以 克服 FCM 算法 的 缺 
陷 ,提高 分 析 的 效率 和 质量 。 


1 案件 的 串 并 条 件 

案件 串 并 涉及 的 条 件 因 素 很 多 ,包括 作案 时 间 及 地 点 的 选择 ,进入 作案 现场 的 方式 , 作 
案 的 工具 ,作案 活动 的 先后 次 序 ,作案 的 手法 ,逃跑 的 方式 与 途径 , 运 赃 、 销 赃 的 途径 等 ,其 他 
重要 的 可 供 参 考 的 因素 有 作案 的 对 象 . 时 间 、 地 点 .手段 等 。 由 于 犯罪 嫌疑 人 的 人 生 经 历 、 犯 
罪 历 史 、 受 教育 程度 .职业 特点 .技巧 技能 ,心理 定式 等 多 种 因素 的 作用 ,犯罪 嫌疑 人 的 作案 
手段 与 方法 在 流窜 作案 过 程 中 已 经 形成 了 稳定 的 特点 , 称 为 犯罪 行为 的 动力 定型 。 在 不 同 
的 案件 中 ,上 述 因素 或 多 或 少 地 都 表现 出 来 ,表现 出 作案 特点 的 特殊 性 、 稳 定性 。 要 扩大 案 
件 侦查 的 线索 ,必须 对 全 部 记录 在 案 的 案件 进行 串 并 分 析 ,碰撞 出 需要 的 情报 线索 。 

1) 案件 性 质 相同 或 相似 

刑事 案件 .治安 案件 .经济 案件 等 各 类 案件 的 犯罪 嫌疑 人 受 上 述 因素 的 影响 ,其 作案 具 
有 连续 性 的 特点 ,如 : 技术 开锁 人 室 盗窃 案 的 作案 人 在 一 段 时 间 内 均 会 实施 人 室 盗窃 犯 罪 ， 
杀人 强奸 案 的 作案 人 一 般 还 会 实施 杀人 强奸 犯罪 。 

2) 作案 时 间 具 有 一 定 的 规律 性 

同一 个 人 或 某 一 做人 所 做 的 案件 中 ,作案 时 间 的 选择 往往 呈现 出 一 定 的 规律 性 ,作案 时 
间 总 是 集中 在 一 天 的 某 一 段 时 间 ,一 周 的 某 一 天 ,一 年 中 的 一 段 时 间 等 。 如 : 盗窃 汽 车 的 案 
件 主要 集中 在 下 半夜 至 次 日 上 午 6 时 前 发 生 ; 抢 劫 ,盗窃 等 侵 财 案件 多 发 生 在 春节 前 夕 。 

3) 犯罪 嫌疑 人 侵犯 的 目标 相同 或 相似 

侵犯 目标 的 选择 是 与 犯罪 嫌疑 人 的 作案 动机 息息相关 的 ,由 于 需求 心理 的 不 同 , 犯 罪 嫌 
疑 人 在 侵犯 ( 害 ) 目 标的 选取 上 具有 一 定 的 倾向 性 。 如 : 单身 年 轻 女 性 多 为 强奸 抢劫 犯罪 的 
对 象 :贵重 工业 原料 .数码 产品 多 为 盗窃 的 对 象 。 

4) 犯罪 嫌疑 人 的 人 身 特征 相同 或 相似 

当 几 个 案件 的 犯罪 嫌疑 人 的 体 貌 特征 相同 或 相似 时 ,可 以 成 为 串 并 案件 的 条 件 。 体 貌 
特征 包括 性 别 、 身 高 EWS RAS MR KE OA, 

5) 作案 手段 ,方法 、 过 程 相同 或 相似 

由 于 犯罪 嫌疑 人 的 犯罪 经 历 、 技 能 技巧 等 因素 的 影响 ,在 作案 工具 、 作 案 特点 、 作 案 过 程 
等 方面 ,往往 形成 一 定 的 模式 ,并 且 带 有 自身 的 特殊 性 和 稳定 性 。 如 : 破坏 窗 栅 ,嫌疑 人 有 
的 习惯 用 千斤 项; 有 的 习惯 用 管 钳 ;有 的 习惯 用 棒 类 。 为 躲避 视频 监控 ,嫌疑 人 有 的 习惯 戴 
BER AW KO AM TRL. 

6) 现场 所 留 痕迹 物证 相同 或 相似 

痕迹 物证 包括 嫌疑 人 作案 过 程 中 在 现场 留 下 的 足迹 手印、 指纹 .工具 、 枪 痕 、 精 液 、 血 
迹 、 毛 发 .毒物 .爆炸 物 .字迹 等 。 对 这 些 特征 进行 对 照 . 重 又 接合、 检验 后 ,如 果 认 定 为 相同 
或 相似 ,就 能 为 串 并 案件 提供 条 件 。 

现在 ,公安 机 关 在 违法 犯罪 案件 管理 中 采用 关系 型 数据 库存 储 数据 ,每 一 字段 表现 案件 
的 一 个 特征 ,如 : 作案 时 间 包 括 一 天 中 的 不 同时 间 段 ; 体 貌 特征 包括 近 百 种 人 类 社会 常见 的 


Rok AMORA 


(959 


特征 ;作案 工具 包括 几 百 种 常见 的 工具 。 这 种 组 织 数据 的 方法 在 以 关系 型 数据 库 为 基础 的 
时 代 , 为 案件 的 串 并 做 出 了 重要 的 贡献 。 但 这 种 方式 也 有 其 自身 的 缺点 ,一 是 数据 的 录入 较 
为 复杂 ,针对 每 一 起 案件 ,都 要 组 织 专业 人 员 进 行 录入 浪费 了 大 量 的 人 力 。 二 是 案件 的 录入 
质量 参差 不 齐 。 由 于 录入 人 员 对 案件 的 了 解 程度 、 表 达 水 平 .对 案件 管理 系统 的 理解 程度 不 
同 ,造成 案件 录入 的 质量 不 尽 如 人 意 。 三 是 案件 串 并 时 过 度 精确 。 由 于 数据 库 中 各 字段 表 
达 过 于 精确 ,在 串 并 查询 时 ,反而 出 现 过 度 精确 ,能 够 串 并 的 案件 过 少 , 没 有 起 到 串 并 案件 应 
有 的 效果 。 

针对 以 上 原因 ,提出 直接 采用 案件 的 询问 笔录 作为 串 并 的 基础 ,基于 文本 进行 案件 的 串 
并 聚 类 ,发挥 大 数据 的 特长 ,在 全 国 范围 内 进行 案件 的 串 并 查询 。 


2 向 量 空间 模型 

向 量 空间 模型 (Vector Space Model,VSM) 是 对 案件 进行 描述 的 较为 常见 的 方法 ,把 案 
件 集合 描述 为 向 量 空 间 , 空 间 由 一 组 正 交 词 条 向 量 组 成 ,向 量 是 对 案件 的 一 种 描述 : 

Vd) = (t sw CA) «t; sw: (d) so t sw: (d), tt sw (d)) 

式 中 ,zt; 是 案件 中 的 关键 词 , 在 处 理 案件 描述 时 ,采用 中 文 分 词法 对 描述 语句 进行 切 分 
得 到 ;wi(d) 是 关键 词 t; 在 案件 描述 d 中 重要 程度 的 函数 ,常用 的 计算 方法 为 词 频 加 权 计 
算法 。 

3 向 量 距离 的 测度 方法 

1) 欧 氏 距离 测度 (Euclidean distance) ,这 是 距离 测度 中 最 简单 的 , 它 最 直观 且 符合 人 
们 通常 对 距离 的 理解 。 例 如 ,平面 上 两 个 点 , 欧 氏 距离 测度 中 使 用 坐标 轴 来 计算 它们 的 距 
PS ,数学 上 两 个 维 向 量 的 欧 氏 距离 表示 为 : 

d= Va—b) + Caz — bz)? + + (a; — bi)? 
2) 平方 欧 氏 距 离 测 度 
这 种 测度 的 值 是 欧 氏 距离 的 平方 。 对 两 个 维 向 量 ,其 距离 表示 为 : 
d = (a, — b1)? + (az — bz)? +0 + Cai — bi)? 

3) 曼哈顿 距离 测度 

两 个 点 之 间 的 距离 是 它们 坐标 差 的 绝对 值 的 和 ,这 个 距离 测度 的 名 字 取 自 呈 网 格 状 的 
曼哈顿 街区 ,大 家 都 知道 ,不 可 能 穿 过 建筑 物 取 直线 从 一 个 地 点 到 达 另 一 地 点 。 数 学 上 两 个 
n 维 向 量 的 距离 用 公式 表达 为 : 

d —|ai—bi | 十 | az — 6; | 十 … 十 | an — b, | 


4) 余弦 距离 测度 
余弦 距离 测度 需要 将 这 些 点 视 为 从 原点 指向 它们 的 向 量 . 这 些 向 量 之 间 形 成 了 一 个 来 
ffi 0, 当 夹 角 较 小 时 ,这 些 向 量 指向 大 致 相同 的 方向 ,因此 这 些 点 非常 接近 , 夹 角 的 余弦 值 接 
近 于 1, 随 着 夹 角 的 变 大 ,余弦 值 递减 。 余 弦 距 离 公 式 用 1 减 去 余弦 值得 到 一 个 合理 的 距 
离 。 这 样 0 代表 距离 非常 小 ,而 值 越 大 表示 距离 越 远 。 距 离 测度 公式 为 : 
a,b, d- agb; + ++ +4,6, 
(aj Haz d- +a2) JO +83 ++ +82) 


d=1 
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5) 谷 本 距离 测度 

谷 本 距离 测度 (Tanimoto distance measure) ,也 称 为 Jaccard 距离 测度 ,可 以 同时 表现 
点 与 点 之 间 的 夹 角 和 相对 距离 信息 ,克服 了 余弦 距离 测度 的 不 能 反映 两 点 间 相 对 长 度 的 问 
Bi, 距离 测度 公式 为 ， 
ded aby + agb, + t + anbn 

Cai tai +e dca) Gd +03 + n +62) — Gaby + arb, + 7 d aub.) 

6) 加 权 距 离 测 度 

加 权 距 离 测 度 是 基于 欧 氏 距离 和 曼哈顿 距离 的 , 它 具 有 一 种 高 级 特性 ,允许 对 不 同 维度 
加 权 从 而 提高 或 减 小 某 些 维度 对 距离 测度 值 的 影响 ,例如 ,在 计算 平面 两 点 间距 离 时 ,假设 
你 想 让 工 轴 的 影响 是 y 轴 的 两 倍 , 这 时 可 以 让 所 有 的 zx 坐标 加 倍 。 这 对 不 同 距离 测度 产生 
不 同 的 影响 ,但 通常 会 让 距离 值 对 xz 值 变化 更 敏感 。 

4 TFIDF 加 权 计 算 权 重 

TF-IDF(Term Frequency-Inverse Frequency, 词 频 - 逆 文 档 频 率 ) 加 权 被 广泛 用 于 改进 
简单 的 词 频 加 权 。 改 进 之 处 在 于 增加 了 逆 文 档 频率 (IDF) ,也 就 是 词 频 乘 以 单词 的 文档 频 
率 的 倒数 。 也 就 是 说 ,如 果 一 个 单词 在 所 有 文档 中 被 使 用 的 越 频繁 , 那 它 对 向 量 中 的 值 的 作 
用 就 会 被 抵消 得 越 多 。 

为 了 计算 逆 文 档 频率 , 先 计算 每 个 原子 词 的 文档 频率 (DF), 即 这 个 原子 词 在 该 文档 中 
的 出 现 次 数 ,原子 词 在 文档 中 出 现 的 次 数 不 计 入 文档 频率 。 根 据 以 前 章节 的 讲述 知道 经 计 
原子 词 在 文档 中 出 现 的 频次 是 Hadoop 框架 的 “拿手 菜 ” ,关键 是 对 中 文 的 词 的 切 分 。 一 个 
原子 词 的 逆 文 档 频 率 IDF; 为 : 


P= 
IDF. = pF 


如 果 一 个 单词 在 文档 中 频繁 出 现 , 则 其 DF fü IDF 值 小 ,这 个 IDF 值 会 很 小 ,使 乘 
积 后 所 得 到 的 权重 值 过 小 。 这 种 情况 下 ,最 好 乘 以 一 个 常数 来 归 一 化 IDF 值 ,这 个 常数 通 
常 是 文档 的 个 数 (N) ,所 以 IDF 公式 为 : 


IDE, =N 


上 述 公式 中 的 IDF 值 仍 不 理想 ,因为 它 掩盖 了 在 最 终 的 单词 权重 中 TF 的 影响 ,为 了 解 
决 这 个 问题 ,通常 使 用 IDF 值 的 对 数 : 


IDF; = log e 


因此 ,对 单词 w, TF-IDF 权重 W; 成 为 : 
W= TF, log 3 
也 就 是 说 ,文档 向 量 把 这 个 值 放 在 单词 i 所 对 应 的 维度 上 。 这 就 是 经 典 的 TF-IDF 权 
重 。 停 用 词 的 权重 小 ,而 罕见 的 词 权重 大 。 对 重要 的 单词 或 主题 词 来 说 ,通常 有 一 个 很 大 的 
TF 值 和 比重 大 的 IDF 值 ,所 以 它们 的 乘积 将 成 为 更 大 的 值 ,从 而 让 这 些 词 在 所 生成 的 向 量 
中 更 加 重要 。 


5 案件 向 量 的 构建 
案件 聚 类 所 在 的 向 量 空间 是 一 个 维度 非常 高 的 空间 ,经 理论 推算 和 实践 检验 证 明 , 向 量 


空间 的 维度 越 高 ,计算 的 复杂 度 将 呈 指 数 级 增长 ,因此 ,在 单机 环境 下 ,要 使 用 高 维度 的 向 量 
来 表示 案件 并 进行 计算 ,将 会 耗费 很 大 的 计算 资源 ,所 以 ,进行 案件 的 相似 度 计算 要 解决 的 
问题 ,一 是 降低 向 量 空间 的 维度 ,以 降低 计算 难度 。 二 是 提供 足够 的 计算 资源 。 

降 维 的 常用 方法 是 使 用 原子 特征 词 来 描述 案件 。 原 子 特征 词 是 指 从 所 有 案件 文本 中 抽 
取出 来 的 能 够 反映 出 案件 特点 的 原子 词语 。 使 用 原子 特征 词 可 以 将 描述 案件 的 词语 从 很 高 
的 维度 降低 到 相对 较 低 的 维度 空间 。 

原子 特征 词 通常 表示 为 自然 词语 ,但 是 自然 词语 往往 不 够 标准 ,容易 造成 混乱 ,因此 , 必 
须 对 原子 特征 词 进行 规范 ,规范 的 方法 就 是 建立 原子 特征 词 词典 ,从 案件 文本 中 抽取 常用 标 
准 词语 加 入 原子 特征 词 库 中 ,在 这 个 过 程 中 ,可 以 添加 人工 把 关 和 审核 的 因素 ,以 提高 原子 特 
征 词 的 准确 性 。 同 时 ,还 要 构建 一 个 停 用 词 表 , 去 掉 那 些 在 特征 空间 中 经 常 出 现 但 是 没有 实 
际 意义 的 虚词 ,这 样 就 可 以 降低 向 量 空间 的 维度 ,同时 也 考虑 了 原子 特征 词 出 现 频率 的 限 
制 ,以 防止 因 少 数 关键 词 在 简要 案件 描述 中 频率 过 高 而 影响 聚 类 的 准确 率 。 

接 下 来 对 中 文 文本 进行 的 处 理 就 是 中 文 分 词 了 。 中 文 不 同 于 英语 ,英语 中 以 空格 或 标 
点 符号 对 单词 进行 了 切 分 ,所 以 处 理 起 来 较为 方便 。 但 是 ,中 文中 标点 符号 只 是 切 分 句子 ， 
没有 切 分 词语 。 所 以 ,中 文中 词语 的 切 分 使 用 较 多 的 方法 是 “双向 最 大 匹配 法 ”, 先 正 向 最 大 
切 分 ,然后 反 向 最 大 切 分 ,两 者 的 结合 所 得 即 是 最 终 的 分 词 结果 。 在 向 量 空间 中 ,以 原子 特 
征 词 在 词 库 中 的 代码 代表 该 词 ,以 该 词 在 案件 中 的 加 权 词 频 值 作为 该 维度 在 向 量 空间 中 重 
要 程度 值 。 接 下 来 需要 选择 一 种 较 优 的 算法 计算 向 量 之 间 的 距离 ,从 而 找 出 最 相近 的 案件 。 

提供 足够 多 的 计算 资源 在 单机 环境 下 是 很 难 实现 的 , 随 着 Hadoop 的 出 现 , MapReduce 
模型 把 大 的 计算 任务 分 解 到 多 个 节点 实现 分 布 式 计算 ,为 串 并 案件 的 计算 提供 了 足够 的 计 
算 资 源 。 这 里 将 采用 Hadoop 技术 来 进行 串 并 案件 的 聚 类 。 


6 FCM 算 法 介绍 

模糊 C 均值 聚 类 (FCM) , 即 众所周知 的 模糊 ISODATA, 是 用 关联 度 确定 每 个 数据 点 
属于 某 个 聚 类 的 程度 的 一 种 聚 类 算法 。1973 年 ,Bezdek 提出 了 该 算法 ,作为 早期 硬 C 均值 
聚 类 (HCMD) 方 法 的 一 种 改进 。FCM 把 个 向 量 xz;(i 二 1,2,…,n) 分 为 c 个 模糊 组 ,并 求 每 
组 的 聚 类 中 心 ,使 得 非 相似 性 指标 的 关联 度 达到 最 小 。FCM 使 得 每 个 给 定数 据点 用 值 在 
0 一 1 的 关联 度 来 确定 其 属于 各 个 组 的 程度 。 与 引入 模糊 划分 相 适 应 ,隶属 矩阵 U 允许 有 取 
值 在 0 一 1 的 元 素 。 不 过 ,加 上 归 一 化 规定 ,一 个 数据 集 的 关联 度 的 和 总 等 于 1, 即 : 

Duj =1, jode 


i=1 


那么 ,FCM 的 关联 度 就 是 下 面 公式 的 一 般 化 形式 : 
J (Us,c,* sc) = D Dagat (D 
这 里 us fr T 0 一 1;ci 为 模糊 组 i 的 聚 类 中 心 ,dj =| lesa; || WIP REP j 
个 数据 点 间 的 距离 ; 且 mr( 属 于 1 到 无 穷 ) 是 一 个 加 权 指 数 。 
构造 如 下 新 的 目标 函数 ,可 求 得 使 下 式 达 到 最 小 值 的 必要 条 件 , 其 实 就 是 拉 格 朗 日 乘 
子 法 
JU «ci «c2 tt Cn Ar Ag o*t sÀn) 一 > wai E $50 = 1) 


i=1 j=1 
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对 上 式 所 有 输入 参量 求 导 ,使 上 式 达 到 最 小 的 必要 条 件 为 : 


c= (2) 


D(a) 

由 上 述 两 个 必要 条 件 ,模糊 C HY (CREDIS TET E — e REE, ERAEN ROZ 
行 时 ,FCM 用 下 面 步骤 确定 聚 类 中 心 c ARIE E U 

CD 生成 隶属 矩阵 避 。 

(2) 用 公式 (2) 计 算 c 个 聚 类 中 心 ci 一 1,…，c。 

G) 根据 公式 (1) 计 算 关 联 度 。 如 果 它 小 于 某 个 确定 的 阔 值 ,或 它 相对 上 次 关联 度 值 的 
改变 量 小 于 某 个 冰 值 , 则 算法 停止 。 

OD 用 公式 (3) 计 算 新 的 U 矩阵 和 。 返 回 步 又 (2) 。 

FCM 作为 HCM 的 改进 算法 ,与 HCM 一 样 有 一 个 硬性 限制 ,就 是 簇 的 个 数 c<。 你 可 能 
要 质疑 这 一 限制 是 否 影响 聚 类 效果 ,这 种 担心 是 多 余 的 ,在 算法 诞生 的 几 十 年 中 ,该 算法 已 
被 证 明 能 够 广泛 用 于 解决 现实 世界 的 问题 ,即使 估计 的 c 值 质量 较 差 ,也 不 影响 聚 类 的 质 
量 , 只 会 对 迭代 的 次 数 产生 影响 。 假 如 说 是 对 新 闻 报道 进行 聚 类 ,以 得 到 顶层 类 别 , 如 政治 、 
科学 体育. 生活 ,文学 等 ,这 时 ,分 类 的 数量 比较 少 更 为 合适 ,可 能 是 10 一 20; 如 果 需 要 细 粒 
度 的 类 别 , 则 需要 更 大 的 c 值 ,如 50 一 100; 假 如 数据 库 中 有 一 百 万 篇 新 闻 报 道 需要 聚 类 ,这 
时 主题 的 数量 应 该 多 一 些 ,使 每 一 个 簇 内 可 能 包含 100 篇 新 闻 较 为 合适 ,也 就 是 说 簇 的 数量 
大 概 是 10 000 个 ,通过 讨论 ,可 以 发 现 FCM 算法 具有 可 扩展 性 ,而 这 正 是 它 用 在 Hadoop 
上 处 理 大 数据 的 原因 。 

影响 FCM 聚 类 质量 的 决定 性 因素 是 所 使 用 的 距离 测度 的 类 型 ,距离 测度 的 类 型 的 选 
择 需要 在 实践 中 不 断 地 总 结 优化 。 经 实验 证 明 , 当 两 个 长 度 不 同 话题 相似 的 文档 之 间 用 欧 
氏 距 离 测 量 时 ,发 现 数据 聚 类 的 结果 没有 何 意义 ,说 明 欧 氏 距 离 测 度 不 适 于 文本 文档 ,可 以 
选择 余弦 距离 测度 和 谷 本 度量 ,因为 它们 更 依赖 于 公共 词汇 而 非 公共 词汇 的 影响 较 小 。 这 
里 ,选择 TF-IDF 加 权 距 离 测度 来 进行 计算 ,更 能 适合 于 文本 文档 的 特点 。 

为 了 使 FCM 得 到 较 好 的 聚 类 质量 ,需要 先 估 算 c 值 ,一 个 近似 的 方法 是 基于 已 有 数据 
和 需要 的 簇 个 数 估 计 < 的 值 ,这 是 一 种 原始 的 估计 簇 个 数 的 方法 ,然而 ,即使 是 这 样 粗 略 的 
估计 ,FCM 算法 也 能 得 到 令 人 满意 的 聚 类 效果 。 对 很 多 现实 的 聚 类 问题 ,事先 并 不 知道 簇 
的 个 数 , 也 不 能 给 出 簇 的 近似 中 心 位 置 。 这 时 只 能 随机 地 生成 c 个 簇 及 其 近似 的 中 心 。 尽 
管 随机 中 心 的 生成 速度 很 快 ,但 无 法 保证 为 c 个 簇 估计 出 较 好 的 中 心 。 而 估计 极 大 地 影响 
着 FCM 的 运行 时 间 。 好 的 估计 有 助 于 算法 更 快 地 收敛 ,对 数据 的 遍历 次 数 会 更 少 。 如 果 
能 根据 数据 自动 确定 簇 的 个 数 及 簇 中 心 , 对 FCM 算法 有 极 大 的 帮助 。 为 了 增强 系统 的 自 
动 化 程度 及 运行 效率 ,采用 了 一 种 快速 聚 类 算法 为 FCM 提供 初始 聚 类 中 心 , 它 就 是 Canopy 
算法 。 


第 9 章 ADOPTED ` 


‘ 263 


7. Canopy 聚 类 算法 介绍 

Canopy 算法 ,流程 简单 ,容易 实现 。 它 使 用 一 种 代价 低 的 相似 性 度量 方法 ,快速 粗略 地 
将 数据 分 成 若干 个 重 释 的 子 集 ,每 个 子 集 可 以 看 成 是 一 个 徐 。 算 法 过 程 如 下 ,算法 示意 图 如 
图 9-2 所 示 。 
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9-2 Canopy 聚 类 算法 示意 图 


CD d FEAS 42g S. UE PES BR A A t H >t 

(2) 任 取 一 个 样本 点 p, 作 为 一 个 Canopy. i029 C. SPER po 

(3) 计算 S 中 所 有 点 到 pp 的 距离 dist. 

CD 若 disc, , 则 将 相应 点 归 到 C, 作 为 弱 关 联 。 

(5) 车 dist<t , 则 将 相应 点 移出 S, 作 为 强 关 联 。 

(6) 重复 (2) 一 (5) ,直至 S 为 空 。 

上 面 的 过 程 可 以 看 出 ,dist<z 的 点 属于 有 且 仅 有 一 个 簇 ,ts 二 dist 过 ty 的 点 可 能 属于 多 
Afi n] UL Canopy 是 一 种 软 聚 类 。 

首先 使 用 Canopy 算法 快速 地 将 数据 分 成 若干 个 Canopy 中 心 ,并 将 Canopy 中 心 集合 
中 小 于 一 定 阔 值 的 Canopy 中 心 删除 ,以便 删除 孤立 点 。Canopy 聚 类 的 优势 在 于 它 得 到 簇 
的 速度 非常 快 , 它 只 需 遍历 一 次 数据 即 可 得 到 结果 。 这 一 优点 也 是 它 的 缺点 ,该 算法 无 法 给 
出 精确 的 族 结果 。 但 它 可 以 给 出 最 优 的 簇 数量 ,不 需要 像 FCM 算法 那样 预先 指定 簇 的 个 
数 。Canopy 聚 类 的 结果 比较 适合 于 作 FCM 聚 类 算法 的 起 始点 ,因为 初始 中 心 的 准确 较 之 
随机 选择 要 更 高 ,所 以 能 够 改善 聚 类 效果 。 

综 上 所 述 ,联合 使 用 Canopy RARE Al FCM BABY. Canopy 算法 生成 的 聚 类 中 
心 作为 FCM 算法 的 初始 聚 类 中 心 ,使 用 FCM 聚 类 算法 更 高 效 地 进行 聚 类 ,最 终 完成 串 并 
案件 的 成 功 碰 撞 。 
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